Elasticsearch 指南其他版本
8.17 中的新功能
Elasticsearch 基础
- 什么是 Elasticsearch?
- 运行 Elasticsearch
- 索引和文档
- 向 Elasticsearch 添加数据
- 搜索和分析数据
- 为生产环境做好准备
快速入门
- 基础：使用 API 进行索引和搜索
- 基础：全文搜索和过滤
- 基础：使用聚合分析电子商务数据
设置 Elasticsearch
- 在本地运行 Elasticsearch
- 安装 Elasticsearch
- 配置 Elasticsearch
- 重要的系统配置
- 引导检查
- X-Pack 的引导检查
- 启动 Elasticsearch
- 停止 Elasticsearch
- 发现和集群形成
- 在集群中添加和删除节点
- 完整集群重启和滚动重启
- 远程集群
- 插件
升级 Elasticsearch
- 已存档设置
- 从较旧的 Elasticsearch 版本读取索引
索引模块
- 分析
- 索引分片分配
- 索引块
- 映射器
- 合并
- 相似度模块
- 慢日志
- 存储
  - 将数据预加载到文件系统缓存中
- 事务日志
- 历史记录保留
- 索引排序
  - 使用索引排序来加速 conjunctions
- 索引压力
映射
- 动态映射
  - 动态字段映射
  - 动态模板
- 显式映射
- 运行时字段
- 字段数据类型
  - 聚合度量
  - 别名
  - 数组
  - 二进制
  - 布尔值
  - 完成
  - 日期
  - 日期纳秒
  - 密集向量
  - 扁平化
  - 地理点
  - 地理形状
  - 直方图
  - IP
  - 连接
  - 关键词
  - 嵌套
  - 数值
  - 对象
  - 传递对象
  - 过滤器
  - 点
  - 范围
  - 排名特征
  - 排名特征
  - 即时搜索
  - 语义文本
  - 形状
  - 稀疏向量
  - 文本
  - 令牌计数
  - 无符号长整型
  - 版本
- 元数据字段
- 映射参数
- 映射限制设置
- 删除映射类型
文本分析
- 概述
- 概念
- 配置文本分析
- 内置分析器参考
  - 指纹
  - 关键词
  - 语言
  - 模式
  - 简单
  - 标准
  - 停止
  - 空格
- 分词器参考
  - 字符组
  - 经典
  - 边缘 N 元
  - 关键词
  - 字母
  - 小写
  - N 元
  - 路径层次结构
  - 模式
  - 简单模式
  - 简单模式分割
  - 标准
  - 泰语
  - UAX URL 电子邮件
  - 空格
- 令牌过滤器参考
  - 省略号
  - ASCII 折叠
  - CJK 双字母
  - CJK 宽度
  - 经典
  - 常用语法
  - 条件
  - 十进制数字
  - 分隔的有效负载
  - 字典复合器
  - 边缘 N 元
  - 省略
  - 指纹
  - 扁平图
  - Hunspell
  - 连字符复合器
  - 保留类型
  - 保留单词
  - 关键字标记
  - 关键字重复
  - KStem
  - 长度
  - 限制令牌计数
  - 小写
  - MinHash
  - 多路复用器
  - N 元
  - 规范化
  - 模式捕获
  - 模式替换
  - 语音
  - Porter 词干
  - 谓词脚本
  - 删除重复项
  - 反转
  - 瓦片
  - 雪球
  - 词干分析器
  - 词干分析器覆盖
  - 停止
  - 同义词
  - 同义词图
  - 修剪
  - 截断
  - 唯一
  - 大写
  - 单词分隔符
  - 单词分隔符图
- 字符过滤器参考
- 规范化器
索引模板
- 模拟多组件模板
- 配置 ignore_missing_component_templates
  - 使用示例
数据流
- 设置数据流
- 使用数据流
- 修改数据流
- 时间序列数据流 (TSDS)
- 日志数据流
- 数据流生命周期
摄取管道
- 示例：解析日志
- 丰富您的数据
- 处理器参考
  - 附加
  - 附件
  - 字节
  - 圆
  - 社区 ID
  - 转换
  - CSV
  - 日期
  - 日期索引名称
  - 剖析
  - 点扩展器
  - 丢弃
  - 丰富
  - 失败
  - 指纹
  - 循环
  - 地理网格
  - GeoIP
  - Grok
  - Gsub
  - HTML 条
  - 推理
  - IP 位置
  - 连接
  - JSON
  - KV
  - 小写
  - 网络方向
  - 管道
  - 编辑
  - 注册域
  - 删除
  - 重命名
  - 重新路由
  - 脚本
  - 设置
  - 设置安全用户
  - 排序
  - 拆分
  - 终止
  - 修剪
  - 大写
  - URL 解码
  - URI 部分
  - 用户代理
- 搜索中的摄取管道
  - 推理处理
  - NLP 教程
别名
搜索您的数据
- 搜索 API
- 搜索相关性优化
- 检索器
  - 检索器示例
- kNN 搜索
- 语义搜索
- 跨集群搜索
- 使用同义词搜索
- 搜索应用程序
- 搜索分析
重新排名
- 语义重新排名
- 学习排名
  - 部署和管理 LTR 模型
  - 使用 LTR 进行搜索
查询 DSL
- 查询和过滤器上下文
- 复合查询
- 全文查询
- 地理位置查询
- 形状查询
  - 形状
- 连接查询
  - 嵌套
  - 有子级
  - 有父级
  - 父级 ID
- 匹配所有
- 跨度查询
- 向量查询
  - Knn
  - 稀疏向量
  - 语义
  - 文本扩展
  - 加权标记
- 专用查询
  - 距离特征
  - 更像这样
  - 渗透
  - 排名特征
  - 脚本
  - 脚本评分
  - 包装器
  - 固定查询
  - 规则
- 词项级查询
  - 存在
  - 模糊
  - ID
  - 前缀
  - 范围
  - 正则表达式
  - 词项
  - 词项集
  - 词项集
  - 通配符
- minimum_should_match 参数
- rewrite 参数
- 正则表达式语法
聚合
- 桶聚合
- 指标聚合
- 管道聚合
地理空间分析
连接器
- 连接器引用
  - Azure Blob 存储
  - Box
  - Confluence
  - Dropbox
  - GitHub
  - Gmail
  - Google Cloud Storage
  - Google Drive
  - GraphQL
  - Jira
  - Microsoft SQL
  - MongoDB
  - MySQL
  - 网络驱动器
  - Notion
  - OneDrive
  - OpenText Documentum
  - Oracle
  - Outlook
  - PostgreSQL
  - Redis
  - S3
  - Salesforce
  - ServiceNow
  - SharePoint Online
  - SharePoint Server
  - Slack
  - Teams
  - Zoom
- 自管理连接器
- Elastic 管理的连接器
  - 管理连接器教程 (MongoDB)
- 构建和自定义连接器
- Kibana 中的连接器 UI
- 连接器 API
  - API 教程
- 内容同步
- 提取和转换
  - 内容提取
  - 同步规则
- 文档级安全性
  - DLS 的工作原理
  - 搜索应用程序中的 DLS
- 管理主题
- 用例
  - 内部知识搜索
- 发行说明
- 已知问题
EQL
- 语法参考
- 函数参考
- 管道参考
- 示例：使用 EQL 检测威胁
ES|QL
- 入门
- ES|QL 参考
- 使用 ES|QL
- 限制
- 示例
SQL
- 概述
- SQL 入门
- 约定和术语
  - 跨 SQL 和 Elasticsearch 的映射概念
- 安全
- SQL REST API
- SQL 转换 API
- SQL CLI
- SQL JDBC
  - API 用法
- SQL ODBC
  - 驱动程序安装
  - 配置
- SQL 客户端应用程序
- SQL 语言
- 函数和运算符
- 保留关键字
- SQL 限制
脚本
- Painless 脚本语言
- 如何编写脚本
- 访问文档中的字段
- 常见脚本用例
  - 字段提取
- 访问文档字段和特殊变量
- 脚本和安全性
- Lucene 表达式语言
- 使用脚本引擎的高级脚本
数据管理
- ILM：管理索引生命周期
- 教程：自定义内置策略
- 教程：自动翻转
- Kibana 中的索引管理
- 概述
- 概念
- 索引生命周期操作
  - 分配
  - 删除
  - 强制合并
  - 迁移
  - 只读
  - 翻转
  - 降采样
  - 可搜索快照
  - 设置优先级
  - 收缩
  - 取消关注
  - 等待快照
- 配置生命周期策略
- 将索引分配过滤器迁移到节点角色
- 解决索引生命周期管理错误
- 启动和停止索引生命周期管理
- 管理现有索引
- 跳过翻转
- 还原托管数据流或索引
- 数据层
自动缩放
- 自动缩放决策器
监视集群
- 概述
- 工作原理
- 在生产环境中监视
- 使用 Elastic Agent 收集监视数据
- 使用 Metricbeat 收集监视数据
- 使用 Filebeat 收集日志数据
- 配置用于监视的数据流/索引
- 旧版收集方法
汇总或转换数据
- 汇总历史数据
- 转换数据
设置高可用性集群
- 弹性设计
  - 小型集群中的弹性
  - 大型集群中的弹性
- 跨集群复制
快照和还原
- 注册存储库
- 创建快照
- 还原快照
- 可搜索快照
保护 Elastic Stack 的安全
- Elasticsearch 安全原则
- 自动启用安全性启动 Elastic Stack
- 手动配置安全性
- 更新节点安全证书
  - 使用相同的 CA
  - 使用不同的 CA
- 用户身份验证
- 用户授权
- 启用审计日志
- 使用 IP 过滤限制连接
- 保护客户端和集成
- 操作员权限
- 故障排除
- 限制
Watcher
- Watcher 入门
- Watcher 的工作原理
- 在 Watcher 中加密敏感数据
- 输入
- 触发器
  - 计划触发器
- 条件
- 操作
- 转换
- 管理监控
- 示例监控
  - 监控 Elasticsearch 集群的状态
- 限制
命令行工具
- elasticsearch-certgen
- elasticsearch-certutil
- elasticsearch-create-enrollment-token
- elasticsearch-croneval
- elasticsearch-keystore
- elasticsearch-node
- elasticsearch-reconfigure-node
- elasticsearch-reset-password
- elasticsearch-saml-metadata
- elasticsearch-service-tokens
- elasticsearch-setup-passwords
- elasticsearch-shard
- elasticsearch-syskeygen
- elasticsearch-users
优化
- 一般建议
- 调整索引速度
- 调整搜索速度
- 调整近似 kNN 搜索
- 调整磁盘使用量
- 调整分片大小
- 将 Elasticsearch 用于时间序列数据
故障排除
- 修复常见的集群问题
  - 水位错误
  - 断路器错误
  - 高 CPU 使用率
  - 高 JVM 内存压力
  - 红色或黄色集群健康状态
  - 拒绝的请求
  - 任务队列积压
  - 映射爆炸
  - 热点
- 诊断未分配的分片
- 向系统中添加丢失的层
- 允许 Elasticsearch 在系统中分配数据
- 允许 Elasticsearch 分配索引
- 索引将索引分配过滤器与数据层节点角色混合，以在数据层之间移动
- 没有足够的节点来分配所有分片副本
- 单个节点上索引的分片总数已超过
- 每个节点的分片总数已达到
- 故障排除损坏
- 修复磁盘空间不足的数据节点
  - 增加数据节点的磁盘容量
  - 减少数据节点的磁盘使用量
- 修复磁盘空间不足的主节点
- 修复磁盘空间不足的其他角色节点
- 启动索引生命周期管理
- 启动快照生命周期管理
- 从快照恢复
- 故障排除损坏的存储库
  - 诊断损坏的存储库
  - 诊断未知存储库
  - 诊断无效存储库
- 解决重复的快照策略失败问题
- 故障排除不稳定的集群
- 故障排除发现
- 故障排除监控
- 故障排除转换
- 故障排除 Watcher
- 故障排除搜索
- 故障排除分片容量健康问题
- 故障排除不平衡的集群
- 捕获诊断信息
REST API
- API 约定
- 通用选项
- REST API 兼容性
- 自动缩放 API
  - 创建或更新自动缩放策略
  - 获取自动缩放容量
  - 删除自动缩放策略
  - 获取自动缩放策略
- 行为分析 API
  - 放置分析集合
  - 删除分析集合
  - 列出分析集合
  - 发布分析集合事件
- 紧凑和对齐文本 (CAT) API
  - cat 别名
  - cat 分配
  - cat 异常检测器
  - cat 组件模板
  - cat 计数
  - cat 数据帧分析
  - cat 数据馈送
  - cat 字段数据
  - cat 健康
  - cat 索引
  - cat 主节点
  - cat 节点属性
  - cat 节点
  - cat 待处理任务
  - cat 插件
  - cat 恢复
  - cat 存储库
  - cat 段
  - cat 分片
  - cat 快照
  - cat 任务管理
  - cat 模板
  - cat 线程池
  - cat 训练模型
  - cat 转换
- 集群 API
  - 集群分配解释
  - 集群获取设置
  - 集群健康
  - 健康
  - 集群重新路由
  - 集群状态
  - 集群统计信息
  - 集群更新设置
  - 节点功能使用情况
  - 节点热线程
  - 节点信息
  - 预验证节点移除
  - 节点重新加载安全设置
  - 节点统计信息
  - 集群信息
  - 待处理的集群任务
  - 远程集群信息
  - 任务管理
  - 投票配置排除项
  - 创建或更新所需节点
  - 获取所需节点
  - 删除所需节点
  - 获取所需平衡
  - 重置所需平衡
- 跨集群复制 API
  - 获取 CCR 统计信息
  - 创建跟随者
  - 暂停跟随者
  - 恢复跟随者
  - 取消关注
  - 忘记跟随者
  - 获取跟随者统计信息
  - 获取跟随者信息
  - 创建自动跟随模式
  - 删除自动跟随模式
  - 获取自动跟随模式
  - 暂停自动跟随模式
  - 恢复自动跟随模式
- 连接器 API
  - 创建连接器
  - 删除连接器
  - 获取连接器
  - 列出连接器
  - 更新连接器 API 密钥 ID
  - 更新连接器配置
  - 更新连接器索引名称
  - 更新连接器功能
  - 更新连接器筛选
  - 更新连接器名称和描述
  - 更新连接器管道
  - 更新连接器调度
  - 更新连接器服务类型
  - 创建连接器同步作业
  - 取消连接器同步作业
  - 删除连接器同步作业
  - 获取连接器同步作业
  - 列出连接器同步作业
  - 检入连接器
  - 更新连接器错误
  - 更新连接器上次同步统计信息
  - 更新连接器状态
  - 检入连接器同步作业
  - 声明连接器同步作业
  - 设置连接器同步作业错误
  - 设置连接器同步作业统计信息
- 数据流 API
  - 创建数据流
  - 删除数据流
  - 获取数据流
  - 迁移到数据流
  - 数据流统计信息
  - 升级数据流
  - 修改数据流
  - 放置数据流生命周期
  - 获取数据流生命周期
  - 删除数据流生命周期
  - 解释数据流生命周期
  - 获取数据流生命周期
  - 降采样
- 文档 API
  - 读取和写入文档
  - 索引
  - 获取
  - 删除
  - 按查询删除
  - 更新
  - 按查询更新
  - 多重获取
  - 批量
  - 重新索引
  - 词条向量
  - 多词条向量
  - ?refresh
  - 乐观并发控制
- 丰富 API
  - 创建丰富策略
  - 删除丰富策略
  - 获取丰富策略
  - 执行丰富策略
  - 丰富统计信息
- EQL API
  - 删除异步 EQL 搜索
  - EQL 搜索
  - 获取异步 EQL 搜索
  - 获取异步 EQL 搜索状态
- ES|QL API
  - ES|QL 查询 API
  - ES|QL 异步查询 API
  - ES|QL 异步查询获取 API
  - ES|QL 异步查询删除 API
- 功能 API
  - 获取功能
  - 重置功能
- Fleet API
  - 获取全局检查点
  - Fleet 搜索
  - Fleet 多重搜索
- 图表探索 API
- 索引 API
  - 别名是否存在
  - 别名
  - 分析
  - 分析索引磁盘使用量
  - 清除缓存
  - 克隆索引
  - 关闭索引
  - 创建索引
  - 创建或更新别名
  - 创建或更新组件模板
  - 创建或更新索引模板
  - 创建或更新索引模板（旧版）
  - 删除组件模板
  - 删除悬挂索引
  - 删除别名
  - 删除索引
  - 删除索引模板
  - 删除索引模板（旧版）
  - 存在
  - 字段使用情况统计信息
  - 刷新
  - 强制合并
  - 获取别名
  - 获取组件模板
  - 获取字段映射
  - 获取索引
  - 获取索引设置
  - 获取索引模板
  - 获取索引模板（旧版）
  - 获取映射
  - 导入悬挂索引
  - 索引恢复
  - 索引段
  - 索引分片存储
  - 索引统计信息
  - 索引模板是否存在（旧版）
  - 列出悬挂索引
  - 打开索引
  - 刷新
  - 解析索引
  - 解析集群
  - 翻转
  - 收缩索引
  - 模拟索引
  - 模拟模板
  - 拆分索引
  - 解冻索引
  - 更新索引设置
  - 更新映射
- 索引生命周期管理 API
  - 创建或更新生命周期策略
  - 获取策略
  - 删除策略
  - 移动到步骤
  - 删除策略
  - 重试策略
  - 获取索引生命周期管理状态
  - 解释生命周期
  - 启动索引生命周期管理
  - 停止索引生命周期管理
  - 将索引、ILM 策略以及旧版、可组合和组件模板迁移到数据层路由
- 推理 API
  - 删除推理 API
  - 获取推理 API
  - 执行推理 API
  - 创建推理 API
  - 流式推理 API
  - 更新推理 API
  - 阿里云 AI 搜索推理服务
  - Amazon Bedrock 推理服务
  - Anthropic 推理服务
  - Azure AI Studio 推理服务
  - Azure OpenAI 推理服务
  - Cohere 推理服务
  - Elasticsearch 推理服务
  - ELSER 推理服务
  - Google AI Studio 推理服务
  - Google Vertex AI 推理服务
  - HuggingFace 推理服务
  - Mistral 推理服务
  - OpenAI 推理服务
  - Watsonx 推理服务
- 信息 API
- 摄取 API
  - 创建或更新管道
  - 获取管道
  - 删除管道
  - 模拟管道
  - 模拟摄取
  - GeoIP 统计
  - 创建或更新 IP 地理位置数据库配置
  - 获取 IP 地理位置数据库配置
  - 删除 IP 地理位置数据库配置
- 许可 API
  - 删除许可证
  - 获取许可证
  - 获取试用状态
  - 开始试用
  - 获取基本状态
  - 开始基本版
  - 更新许可证
- Logstash API
  - 创建或更新 Logstash 管道
  - 删除 Logstash 管道
  - 获取 Logstash 管道
- 机器学习 API
  - 获取机器学习信息
  - 获取机器学习内存统计
  - 设置升级模式
- 机器学习异常检测 API
  - 向日历添加事件
  - 向日历添加作业
  - 关闭作业
  - 创建作业
  - 创建日历
  - 创建数据源
  - 创建过滤器
  - 删除日历
  - 删除数据源
  - 从日历中删除事件
  - 删除过滤器
  - 删除预测
  - 删除作业
  - 从日历中删除作业
  - 删除模型快照
  - 删除过期数据
  - 估计模型内存
  - 刷新作业
  - 预测作业
  - 获取存储桶
  - 获取日历
  - 获取类别
  - 获取数据源
  - 获取数据源统计
  - 获取影响因素
  - 获取作业
  - 获取作业统计
  - 获取模型快照
  - 获取模型快照升级统计
  - 获取总体存储桶
  - 获取计划事件
  - 获取过滤器
  - 获取记录
  - 打开作业
  - 向作业发布数据
  - 预览数据源
  - 重置作业
  - 还原模型快照
  - 启动数据源
  - 停止数据源
  - 更新数据源
  - 更新过滤器
  - 更新作业
  - 更新模型快照
  - 升级模型快照
- 机器学习数据帧分析 API
  - 创建数据帧分析作业
  - 删除数据帧分析作业
  - 评估数据帧分析
  - 解释数据帧分析
  - 获取数据帧分析作业
  - 获取数据帧分析作业统计
  - 预览数据帧分析
  - 启动数据帧分析作业
  - 停止数据帧分析作业
  - 更新数据帧分析作业
- 机器学习训练模型 API
  - 清除训练模型部署缓存
  - 创建或更新训练模型别名
  - 创建训练模型的一部分
  - 创建训练模型
  - 创建训练模型词汇表
  - 删除训练模型别名
  - 删除训练模型
  - 获取训练模型
  - 获取训练模型统计
  - 推断训练模型
  - 启动训练模型部署
  - 停止训练模型部署
  - 更新训练模型部署
- 迁移 API
  - 弃用信息
  - 功能迁移
- 节点生命周期 API
  - 放置关闭 API
  - 获取关闭 API
  - 删除关闭 API
- 查询规则 API
  - 创建或更新查询规则集
  - 获取查询规则集
  - 列出查询规则集
  - 删除查询规则集
  - 创建或更新查询规则
  - 获取查询规则
  - 删除查询规则
  - 测试查询规则集
- 重新加载搜索分析器 API
- 存储库计量 API
  - 获取存储库计量信息
  - 清除存储库计量存档
- 汇总 API
  - 创建汇总作业
  - 删除汇总作业
  - 获取作业
  - 获取汇总上限
  - 获取汇总索引上限
  - 汇总搜索
  - 启动汇总作业
  - 停止汇总作业
- 根 API
- 脚本 API
  - 创建或更新存储脚本
  - 删除存储脚本
  - 获取脚本上下文
  - 获取脚本语言
  - 获取存储脚本
- 搜索 API
  - 搜索
  - 异步搜索
  - 时间点
  - kNN 搜索
  - 检索器
  - 倒数排名融合
  - 滚动
  - 清除滚动
  - 搜索模板
  - 多搜索模板
  - 渲染搜索模板
  - 搜索分片
  - 建议器
  - 多搜索
  - 计数
  - 验证
  - 术语枚举
  - 解释
  - 剖析
  - 字段功能
  - 排名评估
  - 矢量图块搜索
- 搜索应用程序 API
  - 放置搜索应用程序
  - 获取搜索应用程序
  - 列出搜索应用程序
  - 删除搜索应用程序
  - 搜索应用程序搜索
  - 渲染搜索应用程序查询
- 可搜索快照 API
  - 挂载快照
  - 缓存统计
  - 可搜索快照统计
  - 清除缓存
- 安全 API
  - 身份验证
  - 更改密码
  - 清除缓存
  - 清除角色缓存
  - 清除权限缓存
  - 清除 API 密钥缓存
  - 清除服务帐户令牌缓存
  - 创建 API 密钥
  - 创建或更新应用程序权限
  - 创建或更新角色映射
  - 创建或更新角色
  - 批量创建或更新角色 API
  - 批量删除角色 API
  - 创建或更新用户
  - 创建服务帐户令牌
  - 委托 PKI 身份验证
  - 删除应用程序权限
  - 删除角色映射
  - 删除角色
  - 删除服务帐户令牌
  - 删除用户
  - 禁用用户
  - 启用用户
  - 注册 Kibana
  - 注册节点
  - 获取 API 密钥信息
  - 获取应用程序权限
  - 获取内置权限
  - 获取角色映射
  - 获取角色
  - 查询角色
  - 获取服务帐户
  - 获取服务帐户凭据
  - 获取安全设置
  - 获取令牌
  - 获取用户权限
  - 获取用户
  - 授予 API 密钥
  - 具有权限
  - 使 API 密钥失效
  - 使令牌失效
  - OpenID Connect 准备身份验证
  - OpenID Connect 身份验证
  - OpenID Connect 注销
  - 查询 API 密钥信息
  - 查询用户
  - 更新 API 密钥
  - 更新安全设置
  - 批量更新 API 密钥
  - SAML 准备身份验证
  - SAML 身份验证
  - SAML 注销
  - SAML 失效
  - SAML 完成注销
  - SAML 服务提供商元数据
  - SSL 证书
  - 激活用户配置文件
  - 禁用用户配置文件
  - 启用用户配置文件
  - 获取用户配置文件
  - 建议用户配置文件
  - 更新用户配置文件数据
  - 具有用户配置文件权限
  - 创建跨集群 API 密钥
  - 更新跨集群 API 密钥
- 快照和还原 API
  - 创建或更新快照存储库
  - 验证快照存储库
  - 存储库分析
  - 验证存储库完整性
  - 获取快照存储库
  - 删除快照存储库
  - 清理快照存储库
  - 克隆快照
  - 创建快照
  - 获取快照
  - 获取快照状态
  - 还原快照
  - 删除快照
- 快照生命周期管理 API
  - 创建或更新策略
  - 获取策略
  - 删除策略
  - 执行快照生命周期策略
  - 执行快照保留策略
  - 获取快照生命周期管理状态
  - 获取快照生命周期统计
  - 启动快照生命周期管理
  - 停止快照生命周期管理
- SQL API
  - 清除 SQL 光标
  - 删除异步 SQL 搜索
  - 获取异步 SQL 搜索
  - 获取异步 SQL 搜索状态
  - SQL 搜索
  - SQL 转换
- 同义词 API
  - 创建或更新同义词集
  - 获取同义词集
  - 列出同义词集
  - 删除同义词集
  - 创建或更新同义词规则
  - 获取同义词规则
  - 删除同义词规则
- 文本结构 API
  - 查找字段结构 API
  - 查找消息结构 API
  - 查找文本结构 API
  - 测试 Grok 模式
- 转换 API
  - 创建转换
  - 删除转换
  - 获取转换
  - 获取转换统计
  - 预览转换
  - 重置转换
  - 立即计划转换
  - 启动转换
  - 停止转换
  - 更新转换
  - 升级转换
- 使用情况 API
- Watcher API
  - 确认观察
  - 激活观察
  - 停用观察
  - 删除观察
  - 执行观察
  - 获取观察
  - 获取 Watcher 统计
  - 查询观察
  - 创建或更新观察
  - 更新 Watcher 设置
  - 获取 Watcher 设置
  - 启动观察服务
  - 停止观察服务
- 定义
  - 角色映射资源
迁移指南
- 8.17
- 8.16
- 8.15
- 8.14
- 8.13
- 8.12
- 8.11
- 8.10
- 8.9
- 8.8
- 8.7
- 8.6
- 8.5
- 8.4
- 8.3
- 8.2
- 8.1
- 8.0
  - Java 时间迁移指南
  - 瞬态设置迁移指南
发行说明
- Elasticsearch 版本 8.17.0
- Elasticsearch 版本 8.16.1
- Elasticsearch 版本 8.16.0
- Elasticsearch 版本 8.15.5
- Elasticsearch 版本 8.15.4
- Elasticsearch 版本 8.15.3
- Elasticsearch 版本 8.15.2
- Elasticsearch 版本 8.15.1
- Elasticsearch 版本 8.15.0
- Elasticsearch 版本 8.14.3
- Elasticsearch 版本 8.14.2
- Elasticsearch 版本 8.14.1
- Elasticsearch 版本 8.14.0
- Elasticsearch 版本 8.13.4
- Elasticsearch 版本 8.13.3
- Elasticsearch 版本 8.13.2
  - 错误修复
- Elasticsearch 版本 8.13.1
  - 错误修复
- Elasticsearch 版本 8.13.0
- Elasticsearch 版本 8.12.2
- Elasticsearch 版本 8.12.1
- Elasticsearch 版本 8.12.0
- Elasticsearch 版本 8.11.4
- Elasticsearch 版本 8.11.3
- Elasticsearch 版本 8.11.2
- Elasticsearch 版本 8.11.1
- Elasticsearch 版本 8.11.0
- Elasticsearch 版本 8.10.4
- Elasticsearch 版本 8.10.3
- Elasticsearch 版本 8.10.2
- Elasticsearch 版本 8.10.1
- Elasticsearch 版本 8.10.0
- Elasticsearch 版本 8.9.2
- Elasticsearch 版本 8.9.1
- Elasticsearch 版本 8.9.0
- Elasticsearch 版本 8.8.2
- Elasticsearch 版本 8.8.1
- Elasticsearch 版本 8.8.0
- Elasticsearch 版本 8.7.1
- Elasticsearch 版本 8.7.0
- Elasticsearch 版本 8.6.2
- Elasticsearch 版本 8.6.1
- Elasticsearch 版本 8.6.0
- Elasticsearch 版本 8.5.3
- Elasticsearch 版本 8.5.2
- Elasticsearch 版本 8.5.1
- Elasticsearch 版本 8.5.0
- Elasticsearch 版本 8.4.3
- Elasticsearch 版本 8.4.2
- Elasticsearch 版本 8.4.1
- Elasticsearch 版本 8.4.0
- Elasticsearch 版本 8.3.3
- Elasticsearch 版本 8.3.2
- Elasticsearch 版本 8.3.1
- Elasticsearch 版本 8.3.0
- Elasticsearch 版本 8.2.3
- Elasticsearch 版本 8.2.2
- Elasticsearch 版本 8.2.1
- Elasticsearch 版本 8.2.0
- Elasticsearch 版本 8.1.3
- Elasticsearch 版本 8.1.2
- Elasticsearch 版本 8.1.1
- Elasticsearch 版本 8.1.0
- Elasticsearch 版本 8.0.1
- Elasticsearch 版本 8.0.0
- Elasticsearch 版本 8.0.0-rc2
- Elasticsearch 版本 8.0.0-rc1
- Elasticsearch 版本 8.0.0-beta1
- Elasticsearch 版本 8.0.0-alpha2
- Elasticsearch 版本 8.0.0-alpha1
依赖项和版本

› ›

调整搜索速度

编辑

调整搜索速度

编辑

为文件系统缓存分配内存

编辑

Elasticsearch 严重依赖文件系统缓存来提高搜索速度。一般来说，你应该确保至少有一半的可用内存用于文件系统缓存，以便 Elasticsearch 可以将索引的热点区域保存在物理内存中。

在 Linux 上使用适度的预读值以避免页面缓存颠簸

编辑

搜索可能会导致大量的随机读取 I/O。当底层块设备具有较高的预读值时，可能会进行大量不必要的读取 I/O，尤其是在使用内存映射访问文件时（请参阅存储类型）。

大多数 Linux 发行版对单个普通设备使用合理的预读值 128KiB，但是，当使用软件 RAID、LVM 或 dm-crypt 时，生成的块设备（支持 Elasticsearch path.data）可能会最终得到一个非常大的预读值（在几个 MiB 的范围内）。这通常会导致严重的页面（文件系统）缓存颠簸，从而对搜索（或更新）性能产生不利影响。

你可以使用 lsblk -o NAME,RA,MOUNTPOINT,TYPE,SIZE 以 KiB 为单位检查当前值。查阅你的发行版的文档，了解如何更改此值（例如，使用 udev 规则以在重启后保持不变，或通过 blockdev --setra 作为临时设置）。我们建议预读值为 128KiB。

blockdev 期望的值为 512 字节的扇区，而 lsblk 报告的值为 KiB。例如，要临时将 /dev/nvme0n1 的预读值设置为 128KiB，请指定 blockdev --setra 256 /dev/nvme0n1。

使用更快的硬件

编辑

如果你的搜索受 I/O 限制，请考虑增加文件系统缓存的大小（见上文）或使用更快的存储。每次搜索都涉及跨多个文件的顺序读取和随机读取的混合，并且每个分片上可能同时运行多个搜索，因此 SSD 驱动器往往比机械磁盘表现更好。

如果你的搜索受 CPU 限制，请考虑使用更多数量的更快 CPU。

本地存储与远程存储

编辑

直接连接的（本地）存储通常比远程存储性能更好，因为它更容易配置好并且避免了通信开销。

一些远程存储的性能非常差，尤其是在 Elasticsearch 施加的那种负载下。但是，通过仔细的调整，有时也可以使用远程存储来实现可接受的性能。在提交到特定的存储架构之前，请使用实际的工作负载对你的系统进行基准测试，以确定任何调整参数的效果。如果无法达到你期望的性能，请与你的存储系统的供应商合作以找出问题。

文档建模

编辑

应该对文档进行建模，以使搜索时的操作尽可能便宜。

特别是，应避免连接。nested 会使查询速度降低数倍，而父子关系会使查询速度降低数百倍。因此，如果可以通过取消规范化文档在没有连接的情况下回答相同的问题，则可以期望显着的加速。

尽可能搜索较少的字段

编辑

query_string 或multi_match 查询的目标字段越多，速度就越慢。一种提高多个字段搜索速度的常见技术是在索引时将其值复制到单个字段中，然后在搜索时使用此字段。这可以使用映射的copy-to指令自动完成，而无需更改文档的来源。这是一个包含电影的索引示例，该索引通过将两个值都索引到 name_and_plot 字段中来优化在电影的名称和情节上搜索的查询。

resp = client.indices.create(
    index="movies",
    mappings={
        "properties": {
            "name_and_plot": {
                "type": "text"
            },
            "name": {
                "type": "text",
                "copy_to": "name_and_plot"
            },
            "plot": {
                "type": "text",
                "copy_to": "name_and_plot"
            }
        }
    },
)
print(resp)

response = client.indices.create(
  index: 'movies',
  body: {
    mappings: {
      properties: {
        name_and_plot: {
          type: 'text'
        },
        name: {
          type: 'text',
          copy_to: 'name_and_plot'
        },
        plot: {
          type: 'text',
          copy_to: 'name_and_plot'
        }
      }
    }
  }
)
puts response

const response = await client.indices.create({
  index: "movies",
  mappings: {
    properties: {
      name_and_plot: {
        type: "text",
      },
      name: {
        type: "text",
        copy_to: "name_and_plot",
      },
      plot: {
        type: "text",
        copy_to: "name_and_plot",
      },
    },
  },
});
console.log(response);

PUT movies
{
  "mappings": {
    "properties": {
      "name_and_plot": {
        "type": "text"
      },
      "name": {
        "type": "text",
        "copy_to": "name_and_plot"
      },
      "plot": {
        "type": "text",
        "copy_to": "name_and_plot"
      }
    }
  }
}

Copy as curl Try in Elastic

预索引数据

编辑

你应该利用查询中的模式来优化数据的索引方式。例如，如果你的所有文档都有一个 price 字段，并且大多数查询在固定的范围列表上运行 range 聚合，则可以通过将范围预索引到索引中并使用 terms 聚合来加快此聚合的速度。

例如，如果文档看起来像

resp = client.index(
    index="index",
    id="1",
    document={
        "designation": "spoon",
        "price": 13
    },
)
print(resp)

response = client.index(
  index: 'index',
  id: 1,
  body: {
    designation: 'spoon',
    price: 13
  }
)
puts response

const response = await client.index({
  index: "index",
  id: 1,
  document: {
    designation: "spoon",
    price: 13,
  },
});
console.log(response);

PUT index/_doc/1
{
  "designation": "spoon",
  "price": 13
}

Copy as curl Try in Elastic

并且搜索请求看起来像

resp = client.search(
    index="index",
    aggs={
        "price_ranges": {
            "range": {
                "field": "price",
                "ranges": [
                    {
                        "to": 10
                    },
                    {
                        "from": 10,
                        "to": 100
                    },
                    {
                        "from": 100
                    }
                ]
            }
        }
    },
)
print(resp)

response = client.search(
  index: 'index',
  body: {
    aggregations: {
      price_ranges: {
        range: {
          field: 'price',
          ranges: [
            {
              to: 10
            },
            {
              from: 10,
              to: 100
            },
            {
              from: 100
            }
          ]
        }
      }
    }
  }
)
puts response

const response = await client.search({
  index: "index",
  aggs: {
    price_ranges: {
      range: {
        field: "price",
        ranges: [
          {
            to: 10,
          },
          {
            from: 10,
            to: 100,
          },
          {
            from: 100,
          },
        ],
      },
    },
  },
});
console.log(response);

GET index/_search
{
  "aggs": {
    "price_ranges": {
      "range": {
        "field": "price",
        "ranges": [
          { "to": 10 },
          { "from": 10, "to": 100 },
          { "from": 100 }
        ]
      }
    }
  }
}

Copy as curl Try in Elastic

那么可以在索引时通过 price_range 字段来丰富文档，该字段应映射为 keyword

resp = client.indices.create(
    index="index",
    mappings={
        "properties": {
            "price_range": {
                "type": "keyword"
            }
        }
    },
)
print(resp)

resp1 = client.index(
    index="index",
    id="1",
    document={
        "designation": "spoon",
        "price": 13,
        "price_range": "10-100"
    },
)
print(resp1)

response = client.indices.create(
  index: 'index',
  body: {
    mappings: {
      properties: {
        price_range: {
          type: 'keyword'
        }
      }
    }
  }
)
puts response

response = client.index(
  index: 'index',
  id: 1,
  body: {
    designation: 'spoon',
    price: 13,
    price_range: '10-100'
  }
)
puts response

const response = await client.indices.create({
  index: "index",
  mappings: {
    properties: {
      price_range: {
        type: "keyword",
      },
    },
  },
});
console.log(response);

const response1 = await client.index({
  index: "index",
  id: 1,
  document: {
    designation: "spoon",
    price: 13,
    price_range: "10-100",
  },
});
console.log(response1);

PUT index
{
  "mappings": {
    "properties": {
      "price_range": {
        "type": "keyword"
      }
    }
  }
}

PUT index/_doc/1
{
  "designation": "spoon",
  "price": 13,
  "price_range": "10-100"
}

Copy as curl Try in Elastic

然后，搜索请求可以聚合这个新字段，而不是在 price 字段上运行 range 聚合。

resp = client.search(
    index="index",
    aggs={
        "price_ranges": {
            "terms": {
                "field": "price_range"
            }
        }
    },
)
print(resp)

response = client.search(
  index: 'index',
  body: {
    aggregations: {
      price_ranges: {
        terms: {
          field: 'price_range'
        }
      }
    }
  }
)
puts response

const response = await client.search({
  index: "index",
  aggs: {
    price_ranges: {
      terms: {
        field: "price_range",
      },
    },
  },
});
console.log(response);

GET index/_search
{
  "aggs": {
    "price_ranges": {
      "terms": {
        "field": "price_range"
      }
    }
  }
}

Copy as curl Try in Elastic

考虑将标识符映射为 `keyword`

编辑

并非所有数字数据都应映射为数字字段数据类型。Elasticsearch 优化了integer 或 long 等数字字段，以进行range 查询。但是，keyword 字段更适合 term 和其他词项级别查询。

标识符（例如 ISBN 或产品 ID）很少在 range 查询中使用。但是，它们通常使用词项级别查询来检索。

如果满足以下条件，请考虑将数字标识符映射为 keyword

你不打算使用 range 查询来搜索标识符数据。
快速检索很重要。keyword 字段上的 term 查询搜索通常比数字字段上的 term 搜索更快。

如果你不确定使用哪个，可以使用多字段将数据映射为 keyword _和_数字数据类型。

避免使用脚本

编辑

如果可能，请避免使用基于脚本的排序、聚合中的脚本以及 script_score 查询。请参阅脚本、缓存和搜索速度。

搜索舍入日期

编辑

在日期字段上使用 now 的查询通常是不可缓存的，因为匹配的范围一直在变化。但是，切换到舍入日期通常在用户体验方面是可以接受的，并且具有更好地利用查询缓存的好处。

例如，下面的查询

resp = client.index(
    index="index",
    id="1",
    document={
        "my_date": "2016-05-11T16:30:55.328Z"
    },
)
print(resp)

resp1 = client.search(
    index="index",
    query={
        "constant_score": {
            "filter": {
                "range": {
                    "my_date": {
                        "gte": "now-1h",
                        "lte": "now"
                    }
                }
            }
        }
    },
)
print(resp1)

response = client.index(
  index: 'index',
  id: 1,
  body: {
    my_date: '2016-05-11T16:30:55.328Z'
  }
)
puts response

response = client.search(
  index: 'index',
  body: {
    query: {
      constant_score: {
        filter: {
          range: {
            my_date: {
              gte: 'now-1h',
              lte: 'now'
            }
          }
        }
      }
    }
  }
)
puts response

const response = await client.index({
  index: "index",
  id: 1,
  document: {
    my_date: "2016-05-11T16:30:55.328Z",
  },
});
console.log(response);

const response1 = await client.search({
  index: "index",
  query: {
    constant_score: {
      filter: {
        range: {
          my_date: {
            gte: "now-1h",
            lte: "now",
          },
        },
      },
    },
  },
});
console.log(response1);

PUT index/_doc/1
{
  "my_date": "2016-05-11T16:30:55.328Z"
}

GET index/_search
{
  "query": {
    "constant_score": {
      "filter": {
        "range": {
          "my_date": {
            "gte": "now-1h",
            "lte": "now"
          }
        }
      }
    }
  }
}

Copy as curl Try in Elastic

可以用以下查询替换

resp = client.search(
    index="index",
    query={
        "constant_score": {
            "filter": {
                "range": {
                    "my_date": {
                        "gte": "now-1h/m",
                        "lte": "now/m"
                    }
                }
            }
        }
    },
)
print(resp)

response = client.search(
  index: 'index',
  body: {
    query: {
      constant_score: {
        filter: {
          range: {
            my_date: {
              gte: 'now-1h/m',
              lte: 'now/m'
            }
          }
        }
      }
    }
  }
)
puts response

const response = await client.search({
  index: "index",
  query: {
    constant_score: {
      filter: {
        range: {
          my_date: {
            gte: "now-1h/m",
            lte: "now/m",
          },
        },
      },
    },
  },
});
console.log(response);

GET index/_search
{
  "query": {
    "constant_score": {
      "filter": {
        "range": {
          "my_date": {
            "gte": "now-1h/m",
            "lte": "now/m"
          }
        }
      }
    }
  }
}

Copy as curl Try in Elastic

在这种情况下，我们舍入到分钟，因此如果当前时间是 16:31:29，则范围查询将匹配 my_date 字段的值在 15:31:00 和 16:31:59 之间的所有内容。如果多个用户在同一分钟内运行包含此范围的查询，则查询缓存可以帮助加快速度。用于舍入的时间间隔越长，查询缓存可以提供的帮助就越大，但请注意，过于激进的舍入也可能会损害用户体验。

可能很想将范围拆分为一个大的可缓存部分和一个较小的不可缓存部分，以便能够利用查询缓存，如下所示

resp = client.search(
    index="index",
    query={
        "constant_score": {
            "filter": {
                "bool": {
                    "should": [
                        {
                            "range": {
                                "my_date": {
                                    "gte": "now-1h",
                                    "lte": "now-1h/m"
                                }
                            }
                        },
                        {
                            "range": {
                                "my_date": {
                                    "gt": "now-1h/m",
                                    "lt": "now/m"
                                }
                            }
                        },
                        {
                            "range": {
                                "my_date": {
                                    "gte": "now/m",
                                    "lte": "now"
                                }
                            }
                        }
                    ]
                }
            }
        }
    },
)
print(resp)

response = client.search(
  index: 'index',
  body: {
    query: {
      constant_score: {
        filter: {
          bool: {
            should: [
              {
                range: {
                  my_date: {
                    gte: 'now-1h',
                    lte: 'now-1h/m'
                  }
                }
              },
              {
                range: {
                  my_date: {
                    gt: 'now-1h/m',
                    lt: 'now/m'
                  }
                }
              },
              {
                range: {
                  my_date: {
                    gte: 'now/m',
                    lte: 'now'
                  }
                }
              }
            ]
          }
        }
      }
    }
  }
)
puts response

const response = await client.search({
  index: "index",
  query: {
    constant_score: {
      filter: {
        bool: {
          should: [
            {
              range: {
                my_date: {
                  gte: "now-1h",
                  lte: "now-1h/m",
                },
              },
            },
            {
              range: {
                my_date: {
                  gt: "now-1h/m",
                  lt: "now/m",
                },
              },
            },
            {
              range: {
                my_date: {
                  gte: "now/m",
                  lte: "now",
                },
              },
            },
          ],
        },
      },
    },
  },
});
console.log(response);

GET index/_search
{
  "query": {
    "constant_score": {
      "filter": {
        "bool": {
          "should": [
            {
              "range": {
                "my_date": {
                  "gte": "now-1h",
                  "lte": "now-1h/m"
                }
              }
            },
            {
              "range": {
                "my_date": {
                  "gt": "now-1h/m",
                  "lt": "now/m"
                }
              }
            },
            {
              "range": {
                "my_date": {
                  "gte": "now/m",
                  "lte": "now"
                }
              }
            }
          ]
        }
      }
    }
  }
}

Copy as curl Try in Elastic

但是，这种做法在某些情况下可能会使查询运行速度变慢，因为 bool 查询引入的开销可能会抵消更好地利用查询缓存所带来的节省。

强制合并只读索引

编辑

只读索引可以从合并到单个段中获益。通常，基于时间的索引就是这种情况：只有当前时间范围的索引会获得新文档，而较旧的索引是只读的。已强制合并为单个段的分片可以使用更简单、更高效的数据结构来执行搜索。

不要强制合并你仍在写入或将来会再次写入的索引。相反，依靠自动后台合并过程在需要时执行合并，以保持索引平稳运行。如果你继续写入强制合并的索引，则其性能可能会变得更差。

预热全局序号

编辑

全局序号是一种用于优化聚合性能的数据结构。它们以延迟方式计算并作为字段数据缓存的一部分存储在 JVM 堆中。对于大量用于存储桶聚合的字段，你可以告诉 Elasticsearch 在收到请求之前构造并缓存全局序号。应该谨慎地执行此操作，因为它会增加堆使用率，并可能使刷新花费更长的时间。可以通过设置 eager global ordinals 映射参数来动态更新现有映射上的选项

resp = client.indices.create(
    index="index",
    mappings={
        "properties": {
            "foo": {
                "type": "keyword",
                "eager_global_ordinals": True
            }
        }
    },
)
print(resp)

response = client.indices.create(
  index: 'index',
  body: {
    mappings: {
      properties: {
        foo: {
          type: 'keyword',
          eager_global_ordinals: true
        }
      }
    }
  }
)
puts response

const response = await client.indices.create({
  index: "index",
  mappings: {
    properties: {
      foo: {
        type: "keyword",
        eager_global_ordinals: true,
      },
    },
  },
});
console.log(response);

PUT index
{
  "mappings": {
    "properties": {
      "foo": {
        "type": "keyword",
        "eager_global_ordinals": true
      }
    }
  }
}

Copy as curl Try in Elastic

预热文件系统缓存

编辑

如果运行 Elasticsearch 的机器重启，文件系统缓存将为空，因此需要一些时间，操作系统才能将索引的热点区域加载到内存中，以便搜索操作能够快速执行。您可以使用 index.store.preload 设置，显式告知操作系统应根据文件扩展名，预先加载哪些文件到内存中。

如果在太多索引或太多文件上预先加载数据到文件系统缓存，如果文件系统缓存不够大，无法容纳所有数据，则会使搜索速度变慢。请谨慎使用。

使用索引排序加速合取查询

编辑

索引排序对于提高合取查询的速度很有用，但会略微降低索引速度。请在索引排序文档中阅读更多相关信息。

使用 `preference` 优化缓存利用率

编辑

有多种缓存可以帮助提高搜索性能，例如文件系统缓存、请求缓存或查询缓存。然而，所有这些缓存都在节点级别维护，这意味着如果您连续运行两次相同的请求，拥有 1 个或多个副本，并使用轮询（默认路由算法），则这两个请求将转到不同的分片副本，从而阻止节点级缓存发挥作用。

由于搜索应用程序的用户通常会一个接一个地运行相似的请求，例如为了分析索引的更小子集，使用标识当前用户或会话的 preference 值可以帮助优化缓存的使用。

副本可能有助于提高吞吐量，但并非总是如此

编辑

除了提高弹性之外，副本还可以帮助提高吞吐量。例如，如果您有一个单分片索引和三个节点，您需要将副本数设置为 2，以便总共有 3 个分片副本，从而利用所有节点。

现在假设您有一个 2 分片索引和两个节点。在一种情况下，副本数为 0，这意味着每个节点持有一个分片。在第二种情况下，副本数为 1，这意味着每个节点有两个分片。哪种设置在搜索性能方面表现最佳？通常，每个节点的分片总数较少的设置性能会更好。原因是它为每个分片提供了更大的可用文件系统缓存份额，而文件系统缓存可能是 Elasticsearch 最重要的性能因素。与此同时，请注意，没有副本的设置在单个节点发生故障时容易出现故障，因此在吞吐量和可用性之间需要权衡。

那么正确的副本数是多少？如果您的集群有 num_nodes 个节点，总共有 num_primaries 个主分片，并且您希望最多能够应对 max_failures 个节点同时发生故障，那么对您来说，正确的副本数是 max(max_failures, ceil(num_nodes / num_primaries) - 1)。

使用搜索分析器调整您的查询

编辑

Profile API 提供了关于查询和聚合的每个组件如何影响处理请求所需时间的详细信息。

Kibana 中的搜索分析器可以轻松导航和分析分析结果，并深入了解如何调整查询以提高性能并减少负载。

由于 Profile API 本身会给查询增加显著的开销，因此最好使用此信息来了解各种查询组件的相对成本。它不提供实际处理时间的可靠度量。

使用 `index_phrases` 加快短语查询

编辑

text 字段有一个 index_phrases 选项，该选项索引 2-shingles，并由查询解析器自动利用来运行没有 slop 的短语查询。如果您的用例涉及运行大量短语查询，这可以显著加快查询速度。

使用 `index_prefixes` 加快前缀查询

编辑

text 字段有一个 index_prefixes 选项，该选项索引所有词项的前缀，并由查询解析器自动利用来运行前缀查询。如果您的用例涉及运行大量前缀查询，这可以显著加快查询速度。

使用 `constant_keyword` 加快过滤速度

编辑

一个普遍的规则是，过滤器的成本主要取决于匹配文档的数量。假设您有一个包含自行车的索引。有大量的自行车，并且许多搜索都对 cycle_type: bicycle 进行过滤。这个非常常见的过滤器不幸的是也非常昂贵，因为它匹配了大多数文档。有一种简单的方法可以避免运行此过滤器：将自行车移动到它们自己的索引中，并通过搜索此索引而不是向查询添加过滤器来过滤自行车。

不幸的是，这会使客户端逻辑变得棘手，而 constant_keyword 可以提供帮助。通过在包含自行车的索引上将 cycle_type 映射为值为 bicycle 的 constant_keyword，客户端可以继续运行与他们在单体索引上运行的完全相同的查询，并且 Elasticsearch 将在自行车索引上正确处理，忽略 cycle_type 上的过滤器（如果值为 bicycle），否则不返回任何匹配项。

以下是映射可能的样子

resp = client.indices.create(
    index="bicycles",
    mappings={
        "properties": {
            "cycle_type": {
                "type": "constant_keyword",
                "value": "bicycle"
            },
            "name": {
                "type": "text"
            }
        }
    },
)
print(resp)

resp1 = client.indices.create(
    index="other_cycles",
    mappings={
        "properties": {
            "cycle_type": {
                "type": "keyword"
            },
            "name": {
                "type": "text"
            }
        }
    },
)
print(resp1)

response = client.indices.create(
  index: 'bicycles',
  body: {
    mappings: {
      properties: {
        cycle_type: {
          type: 'constant_keyword',
          value: 'bicycle'
        },
        name: {
          type: 'text'
        }
      }
    }
  }
)
puts response

response = client.indices.create(
  index: 'other_cycles',
  body: {
    mappings: {
      properties: {
        cycle_type: {
          type: 'keyword'
        },
        name: {
          type: 'text'
        }
      }
    }
  }
)
puts response

const response = await client.indices.create({
  index: "bicycles",
  mappings: {
    properties: {
      cycle_type: {
        type: "constant_keyword",
        value: "bicycle",
      },
      name: {
        type: "text",
      },
    },
  },
});
console.log(response);

const response1 = await client.indices.create({
  index: "other_cycles",
  mappings: {
    properties: {
      cycle_type: {
        type: "keyword",
      },
      name: {
        type: "text",
      },
    },
  },
});
console.log(response1);

PUT bicycles
{
  "mappings": {
    "properties": {
      "cycle_type": {
        "type": "constant_keyword",
        "value": "bicycle"
      },
      "name": {
        "type": "text"
      }
    }
  }
}

PUT other_cycles
{
  "mappings": {
    "properties": {
      "cycle_type": {
        "type": "keyword"
      },
      "name": {
        "type": "text"
      }
    }
  }
}

Copy as curl Try in Elastic

我们将索引分为两部分：一部分将仅包含自行车，另一部分将包含其他自行车：单轮车、三轮车等。然后在搜索时，我们需要搜索这两个索引，但我们不需要修改查询。

resp = client.search(
    index="bicycles,other_cycles",
    query={
        "bool": {
            "must": {
                "match": {
                    "description": "dutch"
                }
            },
            "filter": {
                "term": {
                    "cycle_type": "bicycle"
                }
            }
        }
    },
)
print(resp)

response = client.search(
  index: 'bicycles,other_cycles',
  body: {
    query: {
      bool: {
        must: {
          match: {
            description: 'dutch'
          }
        },
        filter: {
          term: {
            cycle_type: 'bicycle'
          }
        }
      }
    }
  }
)
puts response

const response = await client.search({
  index: "bicycles,other_cycles",
  query: {
    bool: {
      must: {
        match: {
          description: "dutch",
        },
      },
      filter: {
        term: {
          cycle_type: "bicycle",
        },
      },
    },
  },
});
console.log(response);

GET bicycles,other_cycles/_search
{
  "query": {
    "bool": {
      "must": {
        "match": {
          "description": "dutch"
        }
      },
      "filter": {
        "term": {
          "cycle_type": "bicycle"
        }
      }
    }
  }
}

Copy as curl Try in Elastic

在 bicycles 索引上，Elasticsearch 将简单地忽略 cycle_type 过滤器，并将搜索请求重写为下面的请求

resp = client.search(
    index="bicycles,other_cycles",
    query={
        "match": {
            "description": "dutch"
        }
    },
)
print(resp)

response = client.search(
  index: 'bicycles,other_cycles',
  body: {
    query: {
      match: {
        description: 'dutch'
      }
    }
  }
)
puts response

const response = await client.search({
  index: "bicycles,other_cycles",
  query: {
    match: {
      description: "dutch",
    },
  },
});
console.log(response);

GET bicycles,other_cycles/_search
{
  "query": {
    "match": {
      "description": "dutch"
    }
  }
}

Copy as curl Try in Elastic

在 other_cycles 索引上，Elasticsearch 将快速判断出 bicycle 不存在于 cycle_type 字段的词项字典中，并返回没有匹配项的搜索响应。

这是一种通过将常见值放在专用索引中来降低查询成本的强大方法。此想法还可以跨多个字段组合：例如，如果您跟踪每辆自行车的颜色，并且您的 bicycles 索引最终拥有大多数黑色自行车，则可以将其拆分为 bicycles-black 和 bicycles-other-colors 索引。

此优化并非严格要求使用 constant_keyword：也可以更新客户端逻辑，以便根据过滤器将查询路由到相关索引。但是，constant_keyword 使其透明地进行，并允许将搜索请求与索引拓扑结构解耦，而只需付出极少的开销。

« 调整索引速度调整近似 kNN 搜索 »

Was this helpful?

Feedback

The Search AI Company

Generative AI

Search

Security

Observability

By solution

Industries

调整搜索速度

调整搜索速度

为文件系统缓存分配内存

在 Linux 上使用适度的预读值以避免页面缓存颠簸

使用更快的硬件

本地存储与远程存储

文档建模

尽可能搜索较少的字段

预索引数据

考虑将标识符映射为 keyword

避免使用脚本

搜索舍入日期

强制合并只读索引

预热全局序号

预热文件系统缓存

使用索引排序加速合取查询

使用 preference 优化缓存利用率

副本可能有助于提高吞吐量，但并非总是如此

使用搜索分析器调整您的查询

使用 index_phrases 加快短语查询

使用 index_prefixes 加快前缀查询

使用 constant_keyword 加快过滤速度

Follow us

About us

Join us

Partners

Trust & Security

Investor relations

Excellence Awards

考虑将标识符映射为 `keyword`

使用 `preference` 优化缓存利用率

使用 `index_phrases` 加快短语查询

使用 `index_prefixes` 加快前缀查询

使用 `constant_keyword` 加快过滤速度