Elasticsearch 指南其他版本
8.17 中的新功能
Elasticsearch 基础
- 什么是 Elasticsearch?
- 运行 Elasticsearch
- 索引和文档
- 向 Elasticsearch 添加数据
- 搜索和分析数据
- 为生产环境做好准备
快速入门
- 基础：使用 API 进行索引和搜索
- 基础：全文搜索和过滤
- 基础：使用聚合分析电子商务数据
设置 Elasticsearch
- 在本地运行 Elasticsearch
- 安装 Elasticsearch
- 配置 Elasticsearch
- 重要的系统配置
- 引导检查
- X-Pack 的引导检查
- 启动 Elasticsearch
- 停止 Elasticsearch
- 发现和集群形成
- 在集群中添加和删除节点
- 完整集群重启和滚动重启
- 远程集群
- 插件
升级 Elasticsearch
- 已存档设置
- 从较旧的 Elasticsearch 版本读取索引
索引模块
- 分析
- 索引分片分配
- 索引块
- 映射器
- 合并
- 相似度模块
- 慢日志
- 存储
  - 将数据预加载到文件系统缓存中
- 事务日志
- 历史记录保留
- 索引排序
  - 使用索引排序来加速 conjunctions
- 索引压力
映射
- 动态映射
  - 动态字段映射
  - 动态模板
- 显式映射
- 运行时字段
- 字段数据类型
  - 聚合度量
  - 别名
  - 数组
  - 二进制
  - 布尔值
  - 完成
  - 日期
  - 日期纳秒
  - 密集向量
  - 扁平化
  - 地理点
  - 地理形状
  - 直方图
  - IP
  - 连接
  - 关键词
  - 嵌套
  - 数值
  - 对象
  - 传递对象
  - 过滤器
  - 点
  - 范围
  - 排名特征
  - 排名特征
  - 即时搜索
  - 语义文本
  - 形状
  - 稀疏向量
  - 文本
  - 令牌计数
  - 无符号长整型
  - 版本
- 元数据字段
- 映射参数
- 映射限制设置
- 删除映射类型
文本分析
- 概述
- 概念
- 配置文本分析
- 内置分析器参考
  - 指纹
  - 关键词
  - 语言
  - 模式
  - 简单
  - 标准
  - 停止
  - 空格
- 分词器参考
  - 字符组
  - 经典
  - 边缘 N 元
  - 关键词
  - 字母
  - 小写
  - N 元
  - 路径层次结构
  - 模式
  - 简单模式
  - 简单模式分割
  - 标准
  - 泰语
  - UAX URL 电子邮件
  - 空格
- 令牌过滤器参考
  - 省略号
  - ASCII 折叠
  - CJK 双字母
  - CJK 宽度
  - 经典
  - 常用语法
  - 条件
  - 十进制数字
  - 分隔的有效负载
  - 字典复合器
  - 边缘 N 元
  - 省略
  - 指纹
  - 扁平图
  - Hunspell
  - 连字符复合器
  - 保留类型
  - 保留单词
  - 关键字标记
  - 关键字重复
  - KStem
  - 长度
  - 限制令牌计数
  - 小写
  - MinHash
  - 多路复用器
  - N 元
  - 规范化
  - 模式捕获
  - 模式替换
  - 语音
  - Porter 词干
  - 谓词脚本
  - 删除重复项
  - 反转
  - 瓦片
  - 雪球
  - 词干分析器
  - 词干分析器覆盖
  - 停止
  - 同义词
  - 同义词图
  - 修剪
  - 截断
  - 唯一
  - 大写
  - 单词分隔符
  - 单词分隔符图
- 字符过滤器参考
- 规范化器
索引模板
- 模拟多组件模板
- 配置 ignore_missing_component_templates
  - 使用示例
数据流
- 设置数据流
- 使用数据流
- 修改数据流
- 时间序列数据流 (TSDS)
- 日志数据流
- 数据流生命周期
摄取管道
- 示例：解析日志
- 丰富您的数据
- 处理器参考
  - 附加
  - 附件
  - 字节
  - 圆
  - 社区 ID
  - 转换
  - CSV
  - 日期
  - 日期索引名称
  - 剖析
  - 点扩展器
  - 丢弃
  - 丰富
  - 失败
  - 指纹
  - 循环
  - 地理网格
  - GeoIP
  - Grok
  - Gsub
  - HTML 条
  - 推理
  - IP 位置
  - 连接
  - JSON
  - KV
  - 小写
  - 网络方向
  - 管道
  - 编辑
  - 注册域
  - 删除
  - 重命名
  - 重新路由
  - 脚本
  - 设置
  - 设置安全用户
  - 排序
  - 拆分
  - 终止
  - 修剪
  - 大写
  - URL 解码
  - URI 部分
  - 用户代理
- 搜索中的摄取管道
  - 推理处理
  - NLP 教程
别名
搜索您的数据
- 搜索 API
- 搜索相关性优化
- 检索器
  - 检索器示例
- kNN 搜索
- 语义搜索
- 跨集群搜索
- 使用同义词搜索
- 搜索应用程序
- 搜索分析
重新排名
- 语义重新排名
- 学习排名
  - 部署和管理 LTR 模型
  - 使用 LTR 进行搜索
查询 DSL
- 查询和过滤器上下文
- 复合查询
- 全文查询
- 地理位置查询
- 形状查询
  - 形状
- 连接查询
  - 嵌套
  - 有子级
  - 有父级
  - 父级 ID
- 匹配所有
- 跨度查询
- 向量查询
  - Knn
  - 稀疏向量
  - 语义
  - 文本扩展
  - 加权标记
- 专用查询
  - 距离特征
  - 更像这样
  - 渗透
  - 排名特征
  - 脚本
  - 脚本评分
  - 包装器
  - 固定查询
  - 规则
- 词项级查询
  - 存在
  - 模糊
  - ID
  - 前缀
  - 范围
  - 正则表达式
  - 词项
  - 词项集
  - 词项集
  - 通配符
- minimum_should_match 参数
- rewrite 参数
- 正则表达式语法
聚合
- 桶聚合
- 指标聚合
- 管道聚合
地理空间分析
连接器
- 连接器引用
  - Azure Blob 存储
  - Box
  - Confluence
  - Dropbox
  - GitHub
  - Gmail
  - Google Cloud Storage
  - Google Drive
  - GraphQL
  - Jira
  - Microsoft SQL
  - MongoDB
  - MySQL
  - 网络驱动器
  - Notion
  - OneDrive
  - OpenText Documentum
  - Oracle
  - Outlook
  - PostgreSQL
  - Redis
  - S3
  - Salesforce
  - ServiceNow
  - SharePoint Online
  - SharePoint Server
  - Slack
  - Teams
  - Zoom
- 自管理连接器
- Elastic 管理的连接器
  - 管理连接器教程 (MongoDB)
- 构建和自定义连接器
- Kibana 中的连接器 UI
- 连接器 API
  - API 教程
- 内容同步
- 提取和转换
  - 内容提取
  - 同步规则
- 文档级安全性
  - DLS 的工作原理
  - 搜索应用程序中的 DLS
- 管理主题
- 用例
  - 内部知识搜索
- 发行说明
- 已知问题
EQL
- 语法参考
- 函数参考
- 管道参考
- 示例：使用 EQL 检测威胁
ES|QL
- 入门
- ES|QL 参考
- 使用 ES|QL
- 限制
- 示例
SQL
- 概述
- SQL 入门
- 约定和术语
  - 跨 SQL 和 Elasticsearch 的映射概念
- 安全
- SQL REST API
- SQL 转换 API
- SQL CLI
- SQL JDBC
  - API 用法
- SQL ODBC
  - 驱动程序安装
  - 配置
- SQL 客户端应用程序
- SQL 语言
- 函数和运算符
- 保留关键字
- SQL 限制
脚本
- Painless 脚本语言
- 如何编写脚本
- 访问文档中的字段
- 常见脚本用例
  - 字段提取
- 访问文档字段和特殊变量
- 脚本和安全性
- Lucene 表达式语言
- 使用脚本引擎的高级脚本
数据管理
- ILM：管理索引生命周期
- 教程：自定义内置策略
- 教程：自动翻转
- Kibana 中的索引管理
- 概述
- 概念
- 索引生命周期操作
  - 分配
  - 删除
  - 强制合并
  - 迁移
  - 只读
  - 翻转
  - 降采样
  - 可搜索快照
  - 设置优先级
  - 收缩
  - 取消关注
  - 等待快照
- 配置生命周期策略
- 将索引分配过滤器迁移到节点角色
- 解决索引生命周期管理错误
- 启动和停止索引生命周期管理
- 管理现有索引
- 跳过翻转
- 还原托管数据流或索引
- 数据层
自动缩放
- 自动缩放决策器
监视集群
- 概述
- 工作原理
- 在生产环境中监视
- 使用 Elastic Agent 收集监视数据
- 使用 Metricbeat 收集监视数据
- 使用 Filebeat 收集日志数据
- 配置用于监视的数据流/索引
- 旧版收集方法
汇总或转换数据
- 汇总历史数据
- 转换数据
设置高可用性集群
- 弹性设计
  - 小型集群中的弹性
  - 大型集群中的弹性
- 跨集群复制
快照和还原
- 注册存储库
- 创建快照
- 还原快照
- 可搜索快照
保护 Elastic Stack 的安全
- Elasticsearch 安全原则
- 自动启用安全性启动 Elastic Stack
- 手动配置安全性
- 更新节点安全证书
  - 使用相同的 CA
  - 使用不同的 CA
- 用户身份验证
- 用户授权
- 启用审计日志
- 使用 IP 过滤限制连接
- 保护客户端和集成
- 操作员权限
- 故障排除
- 限制
Watcher
- Watcher 入门
- Watcher 的工作原理
- 在 Watcher 中加密敏感数据
- 输入
- 触发器
  - 计划触发器
- 条件
- 操作
- 转换
- 管理监控
- 示例监控
  - 监控 Elasticsearch 集群的状态
- 限制
命令行工具
- elasticsearch-certgen
- elasticsearch-certutil
- elasticsearch-create-enrollment-token
- elasticsearch-croneval
- elasticsearch-keystore
- elasticsearch-node
- elasticsearch-reconfigure-node
- elasticsearch-reset-password
- elasticsearch-saml-metadata
- elasticsearch-service-tokens
- elasticsearch-setup-passwords
- elasticsearch-shard
- elasticsearch-syskeygen
- elasticsearch-users
优化
- 一般建议
- 调整索引速度
- 调整搜索速度
- 调整近似 kNN 搜索
- 调整磁盘使用量
- 调整分片大小
- 将 Elasticsearch 用于时间序列数据
故障排除
- 修复常见的集群问题
  - 水位错误
  - 断路器错误
  - 高 CPU 使用率
  - 高 JVM 内存压力
  - 红色或黄色集群健康状态
  - 拒绝的请求
  - 任务队列积压
  - 映射爆炸
  - 热点
- 诊断未分配的分片
- 向系统中添加丢失的层
- 允许 Elasticsearch 在系统中分配数据
- 允许 Elasticsearch 分配索引
- 索引将索引分配过滤器与数据层节点角色混合，以在数据层之间移动
- 没有足够的节点来分配所有分片副本
- 单个节点上索引的分片总数已超过
- 每个节点的分片总数已达到
- 故障排除损坏
- 修复磁盘空间不足的数据节点
  - 增加数据节点的磁盘容量
  - 减少数据节点的磁盘使用量
- 修复磁盘空间不足的主节点
- 修复磁盘空间不足的其他角色节点
- 启动索引生命周期管理
- 启动快照生命周期管理
- 从快照恢复
- 故障排除损坏的存储库
  - 诊断损坏的存储库
  - 诊断未知存储库
  - 诊断无效存储库
- 解决重复的快照策略失败问题
- 故障排除不稳定的集群
- 故障排除发现
- 故障排除监控
- 故障排除转换
- 故障排除 Watcher
- 故障排除搜索
- 故障排除分片容量健康问题
- 故障排除不平衡的集群
- 捕获诊断信息
REST API
- API 约定
- 通用选项
- REST API 兼容性
- 自动缩放 API
  - 创建或更新自动缩放策略
  - 获取自动缩放容量
  - 删除自动缩放策略
  - 获取自动缩放策略
- 行为分析 API
  - 放置分析集合
  - 删除分析集合
  - 列出分析集合
  - 发布分析集合事件
- 紧凑和对齐文本 (CAT) API
  - cat 别名
  - cat 分配
  - cat 异常检测器
  - cat 组件模板
  - cat 计数
  - cat 数据帧分析
  - cat 数据馈送
  - cat 字段数据
  - cat 健康
  - cat 索引
  - cat 主节点
  - cat 节点属性
  - cat 节点
  - cat 待处理任务
  - cat 插件
  - cat 恢复
  - cat 存储库
  - cat 段
  - cat 分片
  - cat 快照
  - cat 任务管理
  - cat 模板
  - cat 线程池
  - cat 训练模型
  - cat 转换
- 集群 API
  - 集群分配解释
  - 集群获取设置
  - 集群健康
  - 健康
  - 集群重新路由
  - 集群状态
  - 集群统计信息
  - 集群更新设置
  - 节点功能使用情况
  - 节点热线程
  - 节点信息
  - 预验证节点移除
  - 节点重新加载安全设置
  - 节点统计信息
  - 集群信息
  - 待处理的集群任务
  - 远程集群信息
  - 任务管理
  - 投票配置排除项
  - 创建或更新所需节点
  - 获取所需节点
  - 删除所需节点
  - 获取所需平衡
  - 重置所需平衡
- 跨集群复制 API
  - 获取 CCR 统计信息
  - 创建跟随者
  - 暂停跟随者
  - 恢复跟随者
  - 取消关注
  - 忘记跟随者
  - 获取跟随者统计信息
  - 获取跟随者信息
  - 创建自动跟随模式
  - 删除自动跟随模式
  - 获取自动跟随模式
  - 暂停自动跟随模式
  - 恢复自动跟随模式
- 连接器 API
  - 创建连接器
  - 删除连接器
  - 获取连接器
  - 列出连接器
  - 更新连接器 API 密钥 ID
  - 更新连接器配置
  - 更新连接器索引名称
  - 更新连接器功能
  - 更新连接器筛选
  - 更新连接器名称和描述
  - 更新连接器管道
  - 更新连接器调度
  - 更新连接器服务类型
  - 创建连接器同步作业
  - 取消连接器同步作业
  - 删除连接器同步作业
  - 获取连接器同步作业
  - 列出连接器同步作业
  - 检入连接器
  - 更新连接器错误
  - 更新连接器上次同步统计信息
  - 更新连接器状态
  - 检入连接器同步作业
  - 声明连接器同步作业
  - 设置连接器同步作业错误
  - 设置连接器同步作业统计信息
- 数据流 API
  - 创建数据流
  - 删除数据流
  - 获取数据流
  - 迁移到数据流
  - 数据流统计信息
  - 升级数据流
  - 修改数据流
  - 放置数据流生命周期
  - 获取数据流生命周期
  - 删除数据流生命周期
  - 解释数据流生命周期
  - 获取数据流生命周期
  - 降采样
- 文档 API
  - 读取和写入文档
  - 索引
  - 获取
  - 删除
  - 按查询删除
  - 更新
  - 按查询更新
  - 多重获取
  - 批量
  - 重新索引
  - 词条向量
  - 多词条向量
  - ?refresh
  - 乐观并发控制
- 丰富 API
  - 创建丰富策略
  - 删除丰富策略
  - 获取丰富策略
  - 执行丰富策略
  - 丰富统计信息
- EQL API
  - 删除异步 EQL 搜索
  - EQL 搜索
  - 获取异步 EQL 搜索
  - 获取异步 EQL 搜索状态
- ES|QL API
  - ES|QL 查询 API
  - ES|QL 异步查询 API
  - ES|QL 异步查询获取 API
  - ES|QL 异步查询删除 API
- 功能 API
  - 获取功能
  - 重置功能
- Fleet API
  - 获取全局检查点
  - Fleet 搜索
  - Fleet 多重搜索
- 图表探索 API
- 索引 API
  - 别名是否存在
  - 别名
  - 分析
  - 分析索引磁盘使用量
  - 清除缓存
  - 克隆索引
  - 关闭索引
  - 创建索引
  - 创建或更新别名
  - 创建或更新组件模板
  - 创建或更新索引模板
  - 创建或更新索引模板（旧版）
  - 删除组件模板
  - 删除悬挂索引
  - 删除别名
  - 删除索引
  - 删除索引模板
  - 删除索引模板（旧版）
  - 存在
  - 字段使用情况统计信息
  - 刷新
  - 强制合并
  - 获取别名
  - 获取组件模板
  - 获取字段映射
  - 获取索引
  - 获取索引设置
  - 获取索引模板
  - 获取索引模板（旧版）
  - 获取映射
  - 导入悬挂索引
  - 索引恢复
  - 索引段
  - 索引分片存储
  - 索引统计信息
  - 索引模板是否存在（旧版）
  - 列出悬挂索引
  - 打开索引
  - 刷新
  - 解析索引
  - 解析集群
  - 翻转
  - 收缩索引
  - 模拟索引
  - 模拟模板
  - 拆分索引
  - 解冻索引
  - 更新索引设置
  - 更新映射
- 索引生命周期管理 API
  - 创建或更新生命周期策略
  - 获取策略
  - 删除策略
  - 移动到步骤
  - 删除策略
  - 重试策略
  - 获取索引生命周期管理状态
  - 解释生命周期
  - 启动索引生命周期管理
  - 停止索引生命周期管理
  - 将索引、ILM 策略以及旧版、可组合和组件模板迁移到数据层路由
- 推理 API
  - 删除推理 API
  - 获取推理 API
  - 执行推理 API
  - 创建推理 API
  - 流式推理 API
  - 更新推理 API
  - 阿里云 AI 搜索推理服务
  - Amazon Bedrock 推理服务
  - Anthropic 推理服务
  - Azure AI Studio 推理服务
  - Azure OpenAI 推理服务
  - Cohere 推理服务
  - Elasticsearch 推理服务
  - ELSER 推理服务
  - Google AI Studio 推理服务
  - Google Vertex AI 推理服务
  - HuggingFace 推理服务
  - Mistral 推理服务
  - OpenAI 推理服务
  - Watsonx 推理服务
- 信息 API
- 摄取 API
  - 创建或更新管道
  - 获取管道
  - 删除管道
  - 模拟管道
  - 模拟摄取
  - GeoIP 统计
  - 创建或更新 IP 地理位置数据库配置
  - 获取 IP 地理位置数据库配置
  - 删除 IP 地理位置数据库配置
- 许可 API
  - 删除许可证
  - 获取许可证
  - 获取试用状态
  - 开始试用
  - 获取基本状态
  - 开始基本版
  - 更新许可证
- Logstash API
  - 创建或更新 Logstash 管道
  - 删除 Logstash 管道
  - 获取 Logstash 管道
- 机器学习 API
  - 获取机器学习信息
  - 获取机器学习内存统计
  - 设置升级模式
- 机器学习异常检测 API
  - 向日历添加事件
  - 向日历添加作业
  - 关闭作业
  - 创建作业
  - 创建日历
  - 创建数据源
  - 创建过滤器
  - 删除日历
  - 删除数据源
  - 从日历中删除事件
  - 删除过滤器
  - 删除预测
  - 删除作业
  - 从日历中删除作业
  - 删除模型快照
  - 删除过期数据
  - 估计模型内存
  - 刷新作业
  - 预测作业
  - 获取存储桶
  - 获取日历
  - 获取类别
  - 获取数据源
  - 获取数据源统计
  - 获取影响因素
  - 获取作业
  - 获取作业统计
  - 获取模型快照
  - 获取模型快照升级统计
  - 获取总体存储桶
  - 获取计划事件
  - 获取过滤器
  - 获取记录
  - 打开作业
  - 向作业发布数据
  - 预览数据源
  - 重置作业
  - 还原模型快照
  - 启动数据源
  - 停止数据源
  - 更新数据源
  - 更新过滤器
  - 更新作业
  - 更新模型快照
  - 升级模型快照
- 机器学习数据帧分析 API
  - 创建数据帧分析作业
  - 删除数据帧分析作业
  - 评估数据帧分析
  - 解释数据帧分析
  - 获取数据帧分析作业
  - 获取数据帧分析作业统计
  - 预览数据帧分析
  - 启动数据帧分析作业
  - 停止数据帧分析作业
  - 更新数据帧分析作业
- 机器学习训练模型 API
  - 清除训练模型部署缓存
  - 创建或更新训练模型别名
  - 创建训练模型的一部分
  - 创建训练模型
  - 创建训练模型词汇表
  - 删除训练模型别名
  - 删除训练模型
  - 获取训练模型
  - 获取训练模型统计
  - 推断训练模型
  - 启动训练模型部署
  - 停止训练模型部署
  - 更新训练模型部署
- 迁移 API
  - 弃用信息
  - 功能迁移
- 节点生命周期 API
  - 放置关闭 API
  - 获取关闭 API
  - 删除关闭 API
- 查询规则 API
  - 创建或更新查询规则集
  - 获取查询规则集
  - 列出查询规则集
  - 删除查询规则集
  - 创建或更新查询规则
  - 获取查询规则
  - 删除查询规则
  - 测试查询规则集
- 重新加载搜索分析器 API
- 存储库计量 API
  - 获取存储库计量信息
  - 清除存储库计量存档
- 汇总 API
  - 创建汇总作业
  - 删除汇总作业
  - 获取作业
  - 获取汇总上限
  - 获取汇总索引上限
  - 汇总搜索
  - 启动汇总作业
  - 停止汇总作业
- 根 API
- 脚本 API
  - 创建或更新存储脚本
  - 删除存储脚本
  - 获取脚本上下文
  - 获取脚本语言
  - 获取存储脚本
- 搜索 API
  - 搜索
  - 异步搜索
  - 时间点
  - kNN 搜索
  - 检索器
  - 倒数排名融合
  - 滚动
  - 清除滚动
  - 搜索模板
  - 多搜索模板
  - 渲染搜索模板
  - 搜索分片
  - 建议器
  - 多搜索
  - 计数
  - 验证
  - 术语枚举
  - 解释
  - 剖析
  - 字段功能
  - 排名评估
  - 矢量图块搜索
- 搜索应用程序 API
  - 放置搜索应用程序
  - 获取搜索应用程序
  - 列出搜索应用程序
  - 删除搜索应用程序
  - 搜索应用程序搜索
  - 渲染搜索应用程序查询
- 可搜索快照 API
  - 挂载快照
  - 缓存统计
  - 可搜索快照统计
  - 清除缓存
- 安全 API
  - 身份验证
  - 更改密码
  - 清除缓存
  - 清除角色缓存
  - 清除权限缓存
  - 清除 API 密钥缓存
  - 清除服务帐户令牌缓存
  - 创建 API 密钥
  - 创建或更新应用程序权限
  - 创建或更新角色映射
  - 创建或更新角色
  - 批量创建或更新角色 API
  - 批量删除角色 API
  - 创建或更新用户
  - 创建服务帐户令牌
  - 委托 PKI 身份验证
  - 删除应用程序权限
  - 删除角色映射
  - 删除角色
  - 删除服务帐户令牌
  - 删除用户
  - 禁用用户
  - 启用用户
  - 注册 Kibana
  - 注册节点
  - 获取 API 密钥信息
  - 获取应用程序权限
  - 获取内置权限
  - 获取角色映射
  - 获取角色
  - 查询角色
  - 获取服务帐户
  - 获取服务帐户凭据
  - 获取安全设置
  - 获取令牌
  - 获取用户权限
  - 获取用户
  - 授予 API 密钥
  - 具有权限
  - 使 API 密钥失效
  - 使令牌失效
  - OpenID Connect 准备身份验证
  - OpenID Connect 身份验证
  - OpenID Connect 注销
  - 查询 API 密钥信息
  - 查询用户
  - 更新 API 密钥
  - 更新安全设置
  - 批量更新 API 密钥
  - SAML 准备身份验证
  - SAML 身份验证
  - SAML 注销
  - SAML 失效
  - SAML 完成注销
  - SAML 服务提供商元数据
  - SSL 证书
  - 激活用户配置文件
  - 禁用用户配置文件
  - 启用用户配置文件
  - 获取用户配置文件
  - 建议用户配置文件
  - 更新用户配置文件数据
  - 具有用户配置文件权限
  - 创建跨集群 API 密钥
  - 更新跨集群 API 密钥
- 快照和还原 API
  - 创建或更新快照存储库
  - 验证快照存储库
  - 存储库分析
  - 验证存储库完整性
  - 获取快照存储库
  - 删除快照存储库
  - 清理快照存储库
  - 克隆快照
  - 创建快照
  - 获取快照
  - 获取快照状态
  - 还原快照
  - 删除快照
- 快照生命周期管理 API
  - 创建或更新策略
  - 获取策略
  - 删除策略
  - 执行快照生命周期策略
  - 执行快照保留策略
  - 获取快照生命周期管理状态
  - 获取快照生命周期统计
  - 启动快照生命周期管理
  - 停止快照生命周期管理
- SQL API
  - 清除 SQL 光标
  - 删除异步 SQL 搜索
  - 获取异步 SQL 搜索
  - 获取异步 SQL 搜索状态
  - SQL 搜索
  - SQL 转换
- 同义词 API
  - 创建或更新同义词集
  - 获取同义词集
  - 列出同义词集
  - 删除同义词集
  - 创建或更新同义词规则
  - 获取同义词规则
  - 删除同义词规则
- 文本结构 API
  - 查找字段结构 API
  - 查找消息结构 API
  - 查找文本结构 API
  - 测试 Grok 模式
- 转换 API
  - 创建转换
  - 删除转换
  - 获取转换
  - 获取转换统计
  - 预览转换
  - 重置转换
  - 立即计划转换
  - 启动转换
  - 停止转换
  - 更新转换
  - 升级转换
- 使用情况 API
- Watcher API
  - 确认观察
  - 激活观察
  - 停用观察
  - 删除观察
  - 执行观察
  - 获取观察
  - 获取 Watcher 统计
  - 查询观察
  - 创建或更新观察
  - 更新 Watcher 设置
  - 获取 Watcher 设置
  - 启动观察服务
  - 停止观察服务
- 定义
  - 角色映射资源
迁移指南
- 8.17
- 8.16
- 8.15
- 8.14
- 8.13
- 8.12
- 8.11
- 8.10
- 8.9
- 8.8
- 8.7
- 8.6
- 8.5
- 8.4
- 8.3
- 8.2
- 8.1
- 8.0
  - Java 时间迁移指南
  - 瞬态设置迁移指南
发行说明
- Elasticsearch 版本 8.17.0
- Elasticsearch 版本 8.16.1
- Elasticsearch 版本 8.16.0
- Elasticsearch 版本 8.15.5
- Elasticsearch 版本 8.15.4
- Elasticsearch 版本 8.15.3
- Elasticsearch 版本 8.15.2
- Elasticsearch 版本 8.15.1
- Elasticsearch 版本 8.15.0
- Elasticsearch 版本 8.14.3
- Elasticsearch 版本 8.14.2
- Elasticsearch 版本 8.14.1
- Elasticsearch 版本 8.14.0
- Elasticsearch 版本 8.13.4
- Elasticsearch 版本 8.13.3
- Elasticsearch 版本 8.13.2
  - 错误修复
- Elasticsearch 版本 8.13.1
  - 错误修复
- Elasticsearch 版本 8.13.0
- Elasticsearch 版本 8.12.2
- Elasticsearch 版本 8.12.1
- Elasticsearch 版本 8.12.0
- Elasticsearch 版本 8.11.4
- Elasticsearch 版本 8.11.3
- Elasticsearch 版本 8.11.2
- Elasticsearch 版本 8.11.1
- Elasticsearch 版本 8.11.0
- Elasticsearch 版本 8.10.4
- Elasticsearch 版本 8.10.3
- Elasticsearch 版本 8.10.2
- Elasticsearch 版本 8.10.1
- Elasticsearch 版本 8.10.0
- Elasticsearch 版本 8.9.2
- Elasticsearch 版本 8.9.1
- Elasticsearch 版本 8.9.0
- Elasticsearch 版本 8.8.2
- Elasticsearch 版本 8.8.1
- Elasticsearch 版本 8.8.0
- Elasticsearch 版本 8.7.1
- Elasticsearch 版本 8.7.0
- Elasticsearch 版本 8.6.2
- Elasticsearch 版本 8.6.1
- Elasticsearch 版本 8.6.0
- Elasticsearch 版本 8.5.3
- Elasticsearch 版本 8.5.2
- Elasticsearch 版本 8.5.1
- Elasticsearch 版本 8.5.0
- Elasticsearch 版本 8.4.3
- Elasticsearch 版本 8.4.2
- Elasticsearch 版本 8.4.1
- Elasticsearch 版本 8.4.0
- Elasticsearch 版本 8.3.3
- Elasticsearch 版本 8.3.2
- Elasticsearch 版本 8.3.1
- Elasticsearch 版本 8.3.0
- Elasticsearch 版本 8.2.3
- Elasticsearch 版本 8.2.2
- Elasticsearch 版本 8.2.1
- Elasticsearch 版本 8.2.0
- Elasticsearch 版本 8.1.3
- Elasticsearch 版本 8.1.2
- Elasticsearch 版本 8.1.1
- Elasticsearch 版本 8.1.0
- Elasticsearch 版本 8.0.1
- Elasticsearch 版本 8.0.0
- Elasticsearch 版本 8.0.0-rc2
- Elasticsearch 版本 8.0.0-rc1
- Elasticsearch 版本 8.0.0-beta1
- Elasticsearch 版本 8.0.0-alpha2
- Elasticsearch 版本 8.0.0-alpha1
依赖项和版本

› › ›

显著文本聚合

编辑

显著文本聚合

编辑

一种聚合，返回集合中自由文本词条中有趣或不寻常的出现。它类似于显著词条聚合，但不同之处在于：

它专门设计用于 text 类型的字段。
它不需要字段数据或 doc-values。
它会动态地重新分析文本内容，这意味着它还可以过滤掉嘈杂文本中重复的部分，否则这些部分会歪曲统计数据。

重新分析大型结果集将需要大量时间和内存。建议将 significant_text 聚合用作采样器或多样化采样器聚合的子聚合，以将分析限制在少量匹配度最高的文档（例如 200 个）中。这通常会提高速度、内存使用率和结果质量。

示例用例

当用户搜索“禽流感”时，建议“H5N1”以帮助扩展查询
建议与股票代码 $ATI 相关的关键字，用于自动新闻分类器

在这些情况下，选择的词条不仅仅是结果中最流行的词条。最流行的词往往非常无聊（and、of、the、we、I、they ...）。显著词条是在前景和背景集之间衡量流行度发生显著变化的词条。如果“H5N1”这个词在 1000 万个文档的索引中只存在于 5 个文档中，但在构成用户搜索结果的 100 个文档中却有 4 个文档包含该词，那么这很重要，并且可能与他们的搜索非常相关。5/10,000,000 与 4/100 相比，频率变化很大。

基本用法

编辑

在典型的用例中，感兴趣的前景集合是查询的匹配度最高的搜索结果的选择，而用于统计比较的背景集合是收集结果的索引或多个索引。

示例

resp = client.search(
    index="news",
    query={
        "match": {
            "content": "Bird flu"
        }
    },
    aggregations={
        "my_sample": {
            "sampler": {
                "shard_size": 100
            },
            "aggregations": {
                "keywords": {
                    "significant_text": {
                        "field": "content"
                    }
                }
            }
        }
    },
)
print(resp)

response = client.search(
  index: 'news',
  body: {
    query: {
      match: {
        content: 'Bird flu'
      }
    },
    aggregations: {
      my_sample: {
        sampler: {
          shard_size: 100
        },
        aggregations: {
          keywords: {
            significant_text: {
              field: 'content'
            }
          }
        }
      }
    }
  }
)
puts response

const response = await client.search({
  index: "news",
  query: {
    match: {
      content: "Bird flu",
    },
  },
  aggregations: {
    my_sample: {
      sampler: {
        shard_size: 100,
      },
      aggregations: {
        keywords: {
          significant_text: {
            field: "content",
          },
        },
      },
    },
  },
});
console.log(response);

GET news/_search
{
  "query": {
    "match": { "content": "Bird flu" }
  },
  "aggregations": {
    "my_sample": {
      "sampler": {
        "shard_size": 100
      },
      "aggregations": {
        "keywords": {
          "significant_text": { "field": "content" }
        }
      }
    }
  }
}

Copy as curl Try in Elastic

响应

{
  "took": 9,
  "timed_out": false,
  "_shards": ...,
  "hits": ...,
    "aggregations" : {
        "my_sample": {
            "doc_count": 100,
            "keywords" : {
                "doc_count": 100,
                "buckets" : [
                    {
                        "key": "h5n1",
                        "doc_count": 4,
                        "score": 4.71235374214817,
                        "bg_count": 5
                    }
                    ...
                ]
            }
        }
    }
}

结果表明，“h5n1”是与禽流感密切相关的几个词条之一。它在我们的整个索引中只出现 5 次（请参阅 bg_count），但在我们 100 个“禽流感”结果文档样本中，有幸出现 4 次。这表明这是一个重要的词，用户可能会将其添加到他们的搜索中。

使用 `filter_duplicate_text` 处理嘈杂数据

编辑

在实际数据中，如果不进行过滤，这些重复的文本部分往往会在 significant_text 结果中大量出现。在索引时过滤近乎重复的文本是一项艰巨的任务，但我们可以使用 filter_duplicate_text 设置在查询时动态清理数据。

首先，让我们使用Signal 媒体数据集（包含 100 万篇涵盖各种新闻的新闻文章），查看一个未过滤的实际示例。以下是搜索提及“elasticsearch”的文章的原始显著文本结果

{
  ...
  "aggregations": {
    "sample": {
      "doc_count": 35,
      "keywords": {
        "doc_count": 35,
        "buckets": [
          {
            "key": "elasticsearch",
            "doc_count": 35,
            "score": 28570.428571428572,
            "bg_count": 35
          },
          ...
          {
            "key": "currensee",
            "doc_count": 8,
            "score": 6530.383673469388,
            "bg_count": 8
          },
          ...
          {
            "key": "pozmantier",
            "doc_count": 4,
            "score": 3265.191836734694,
            "bg_count": 4
          },
          ...

}

未经清理的文档出现了一些看起来很奇怪的词条，这些词条表面上与我们的搜索词“elasticsearch”的出现具有统计相关性，例如“pozmantier”。我们可以深入研究这些文档的示例，以了解为什么 pozmantier 是通过此查询连接的

resp = client.search(
    index="news",
    query={
        "simple_query_string": {
            "query": "+elasticsearch  +pozmantier"
        }
    },
    source=[
        "title",
        "source"
    ],
    highlight={
        "fields": {
            "content": {}
        }
    },
)
print(resp)

response = client.search(
  index: 'news',
  body: {
    query: {
      simple_query_string: {
        query: '+elasticsearch  +pozmantier'
      }
    },
    _source: [
      'title',
      'source'
    ],
    highlight: {
      fields: {
        content: {}
      }
    }
  }
)
puts response

const response = await client.search({
  index: "news",
  query: {
    simple_query_string: {
      query: "+elasticsearch  +pozmantier",
    },
  },
  _source: ["title", "source"],
  highlight: {
    fields: {
      content: {},
    },
  },
});
console.log(response);

GET news/_search
{
  "query": {
    "simple_query_string": {
      "query": "+elasticsearch  +pozmantier"
    }
  },
  "_source": [
    "title",
    "source"
  ],
  "highlight": {
    "fields": {
      "content": {}
    }
  }
}

Copy as curl Try in Elastic

结果显示了一系列关于多个技术项目评审小组的非常相似的新闻文章

{
  ...
  "hits": {
    "hits": [
      {
        ...
        "_source": {
          "source": "Presentation Master",
          "title": "T.E.N. Announces Nominees for the 2015 ISE® North America Awards"
        },
        "highlight": {
          "content": [
            "City of San Diego Mike <em>Pozmantier</em>, Program Manager, Cyber Security Division, Department of",
            " Janus, Janus <em>ElasticSearch</em> Security Visualization Engine "
          ]
        }
      },
      {
        ...
        "_source": {
          "source": "RCL Advisors",
          "title": "T.E.N. Announces Nominees for the 2015 ISE(R) North America Awards"
        },
        "highlight": {
          "content": [
            "Mike <em>Pozmantier</em>, Program Manager, Cyber Security Division, Department of Homeland Security S&T",
            "Janus, Janus <em>ElasticSearch</em> Security Visualization Engine"
          ]
        }
      },
      ...

Mike Pozmantier 是评审小组的众多评委之一，而 elasticsearch 被用于正在评审的多个项目之一。

通常情况下，此篇冗长的新闻稿被多个新闻站点复制粘贴，因此其中包含的任何罕见名称、数字或拼写错误都会与我们匹配的查询在统计上相关联。

幸运的是，相似的文档往往排名相似，因此，作为检查匹配度最高的文档流的一部分，significant_text 聚合可以应用过滤器来删除已出现过的任何 6 个或更多令牌的序列。现在，让我们尝试相同的查询，但启用 filter_duplicate_text 设置

resp = client.search(
    index="news",
    query={
        "match": {
            "content": "elasticsearch"
        }
    },
    aggs={
        "sample": {
            "sampler": {
                "shard_size": 100
            },
            "aggs": {
                "keywords": {
                    "significant_text": {
                        "field": "content",
                        "filter_duplicate_text": True
                    }
                }
            }
        }
    },
)
print(resp)

response = client.search(
  index: 'news',
  body: {
    query: {
      match: {
        content: 'elasticsearch'
      }
    },
    aggregations: {
      sample: {
        sampler: {
          shard_size: 100
        },
        aggregations: {
          keywords: {
            significant_text: {
              field: 'content',
              filter_duplicate_text: true
            }
          }
        }
      }
    }
  }
)
puts response

const response = await client.search({
  index: "news",
  query: {
    match: {
      content: "elasticsearch",
    },
  },
  aggs: {
    sample: {
      sampler: {
        shard_size: 100,
      },
      aggs: {
        keywords: {
          significant_text: {
            field: "content",
            filter_duplicate_text: true,
          },
        },
      },
    },
  },
});
console.log(response);

GET news/_search
{
  "query": {
    "match": {
      "content": "elasticsearch"
    }
  },
  "aggs": {
    "sample": {
      "sampler": {
        "shard_size": 100
      },
      "aggs": {
        "keywords": {
          "significant_text": {
            "field": "content",
            "filter_duplicate_text": true
          }
        }
      }
    }
  }
}

Copy as curl Try in Elastic

对于任何熟悉 elastic stack 的人来说，分析重复数据删除后的文本的结果显然质量更高

{
  ...
  "aggregations": {
    "sample": {
      "doc_count": 35,
      "keywords": {
        "doc_count": 35,
        "buckets": [
          {
            "key": "elasticsearch",
            "doc_count": 22,
            "score": 11288.001166180758,
            "bg_count": 35
          },
          {
            "key": "logstash",
            "doc_count": 3,
            "score": 1836.648979591837,
            "bg_count": 4
          },
          {
            "key": "kibana",
            "doc_count": 3,
            "score": 1469.3020408163263,
            "bg_count": 5
          }
        ]
      }
    }
  }
}

由于复制粘贴操作或其他形式的机械重复，Pozmantier 先生和其他与 elasticsearch 的一次性关联不再出现在聚合结果中。

如果可以通过单值索引字段（可能是文章的 title 文本或 original_press_release_url 字段的哈希）来识别重复或近乎重复的内容，则使用父多样化采样器聚合来基于该单个键从样本集中消除这些文档会更有效。预先馈送到 significant_text 聚合的重复内容越少，性能就越好。

使用“类似此但不如此”模式

您可以先搜索结构化字段（例如 category:adultMovie），然后在文本“movie_description”字段上使用 significant_text，从而发现错误分类的内容。获取建议的词条（我会将其留给您想象），然后搜索所有未标记为 category:adultMovie 但包含这些关键字的电影。现在，您有一个错误分类电影的排名列表，您应该对其进行重新分类，或者至少从“适合家庭”类别中删除。

每个词条的显著性得分还可以为排序匹配提供有用的 boost 设置。将 terms 查询的 minimum_should_match 设置与关键字一起使用将有助于控制结果集中精确率/召回率的平衡，即高设置会使少量相关结果中包含大量关键字，而设置为“1”则会产生更详尽的结果集，其中包含任何关键字的所有文档。

限制

编辑

不支持子聚合

编辑

significant_text 聚合故意不支持添加子聚合，因为

它会带来很高的内存成本
它不是一个普遍有用的功能，并且对于那些需要它的用户有一个解决方法

候选词条的数量通常非常多，并且在返回最终结果之前会对其进行大量修剪。支持子聚合会产生额外的搅动，并且效率低下。客户端始终可以从 significant_text 请求中获取经过大量修剪的结果集，并使用带有 include 子句和子聚合的 terms 聚合进行后续查询，以更有效的方式对选定的关键字进行进一步分析。

不支持嵌套对象

编辑

significant_text 聚合当前也不能与嵌套对象中的文本字段一起使用，因为它使用文档 JSON 源。考虑到匹配的 Lucene docID，这使得从存储的 JSON 中匹配嵌套文档时，此功能的效率很低。

近似计数

编辑

结果中提供的包含词条的文档数量基于对每个分片返回的样本求和，因此可能

如果某些分片未在其顶部样本中提供给定词条的数字，则较低
在考虑背景频率时较高，因为它可能会计算已删除文档中找到的出现次数

与大多数设计决策一样，这是权衡的基础，我们选择以牺牲一些（通常很小）的不准确性为代价来提供快速性能。但是，下一节中介绍的 size 和 shard size 设置提供了有助于控制准确性级别的工具。

参数

编辑

显著性启发式方法

编辑

此聚合支持与显著词条聚合相同的评分启发式方法（JLH、mutual_information、gnd、chi_square 等）

大小 & 分片大小

编辑

可以设置 size 参数，以定义应从整体词条列表中返回多少个词条桶。默认情况下，协调搜索过程的节点将请求每个分片提供其自己的顶部词条桶，并且一旦所有分片都响应，它会将结果减少到最终列表，然后将该列表返回给客户端。如果唯一词条的数量大于 size，则返回的列表可能略有偏差且不准确（可能是词条计数略有偏差，甚至可能是本应在顶部大小桶中的词条未返回）。

为了确保更高的准确性，最终 size 的倍数用作从每个分片请求的词条数量 (2 * (size * 1.5 + 10))。要手动控制此设置，可以使用 shard_size 参数来控制每个分片生成的候选词条的数量。

一旦合并所有结果，低频词条可能会变成最有趣的词条，因此，当 shard_size 参数设置为明显高于 size 设置的值时，significant_terms 聚合可以产生更高质量的结果。这确保了由减少节点对更多有希望的候选词条进行整合审查，然后再进行最终选择。显然，大型候选词条列表会导致额外的网络流量和 RAM 使用率，因此这需要在质量/成本之间进行权衡。如果 shard_size 设置为 -1（默认值），则将根据分片数量和 size 参数自动估算 shard_size。

shard_size 不能小于 size（因为这没有意义）。如果小于，Elasticsearch 将会覆盖它，并将其重置为等于 size。

最小文档计数

编辑

可以使用 min_doc_count 选项来配置只返回匹配超过指定命中次数的词条。默认值为 3。

得分较高的词条将在分片级别进行收集，并在第二步中与从其他分片收集的词条合并。然而，分片没有关于全局词条频率的信息。是否将一个词条添加到候选列表的决定仅取决于使用本地分片频率计算的分片上的得分，而不是词条的全局频率。min_doc_count 标准仅在合并所有分片的本地词条统计信息后应用。在某种程度上，添加词条作为候选的决定是在不确定该词条是否会实际达到要求的 min_doc_count 的情况下做出的。如果低频但得分高的词条填充了候选列表，这可能会导致许多（全局）高频词条在最终结果中丢失。为了避免这种情况，可以增加 shard_size 参数，以允许分片上有更多的候选词条。然而，这会增加内存消耗和网络流量。

`shard_min_doc_count`

编辑

参数 shard_min_doc_count 调节分片在确定词条是否应该根据 min_doc_count 添加到候选列表时的确定性。只有当词条在集合中的本地分片频率高于 shard_min_doc_count 时，才会考虑该词条。如果你的字典包含许多低频词条，并且你对这些词条不感兴趣（例如拼写错误），那么你可以设置 shard_min_doc_count 参数来过滤掉分片级别的候选词条，这些词条即使在合并本地计数后也几乎肯定不会达到要求的 min_doc_count。shard_min_doc_count 默认设置为 0，除非你显式设置它，否则不会生效。

通常不建议将 min_doc_count 设置为 1，因为它倾向于返回拼写错误或其他奇怪的词条。找到一个词条的多个实例有助于加强这一观点，即虽然罕见，但该词条并非一次性意外的结果。默认值 3 用于提供最小的证据权重。将 shard_min_doc_count 设置得太高会导致重要的候选词条在分片级别被过滤掉。此值应设置得远低于 min_doc_count/#shards。

自定义背景上下文

编辑

背景词条频率的默认统计信息来源是整个索引，可以通过使用 background_filter 来缩小此范围，以关注更窄上下文中的重要词条。

resp = client.search(
    index="news",
    query={
        "match": {
            "content": "madrid"
        }
    },
    aggs={
        "tags": {
            "significant_text": {
                "field": "content",
                "background_filter": {
                    "term": {
                        "content": "spain"
                    }
                }
            }
        }
    },
)
print(resp)

response = client.search(
  index: 'news',
  body: {
    query: {
      match: {
        content: 'madrid'
      }
    },
    aggregations: {
      tags: {
        significant_text: {
          field: 'content',
          background_filter: {
            term: {
              content: 'spain'
            }
          }
        }
      }
    }
  }
)
puts response

const response = await client.search({
  index: "news",
  query: {
    match: {
      content: "madrid",
    },
  },
  aggs: {
    tags: {
      significant_text: {
        field: "content",
        background_filter: {
          term: {
            content: "spain",
          },
        },
      },
    },
  },
});
console.log(response);

GET news/_search
{
  "query": {
    "match": {
      "content": "madrid"
    }
  },
  "aggs": {
    "tags": {
      "significant_text": {
        "field": "content",
        "background_filter": {
          "term": { "content": "spain" }
        }
      }
    }
  }
}

Copy as curl Try in Elastic

上面的过滤器将有助于关注马德里市特有的词条，而不是显示像“西班牙语”这样的词条，这些词条在整个索引的全球背景下是不寻常的，但在包含“西班牙”一词的文档子集中是很常见的。

使用背景过滤器会减慢查询速度，因为必须过滤每个词条的倒排表以确定频率。

处理源和索引映射

编辑

通常，索引字段名称和检索的原始 JSON 字段共享相同的名称。然而，对于更复杂的字段映射，使用诸如 copy_to 等功能，源 JSON 字段和聚合的索引字段可能会有所不同。在这些情况下，可以使用 source_fields 参数列出将从中分析文本的 JSON _source 字段。

resp = client.search(
    index="news",
    query={
        "match": {
            "custom_all": "elasticsearch"
        }
    },
    aggs={
        "tags": {
            "significant_text": {
                "field": "custom_all",
                "source_fields": [
                    "content",
                    "title"
                ]
            }
        }
    },
)
print(resp)

response = client.search(
  index: 'news',
  body: {
    query: {
      match: {
        custom_all: 'elasticsearch'
      }
    },
    aggregations: {
      tags: {
        significant_text: {
          field: 'custom_all',
          source_fields: [
            'content',
            'title'
          ]
        }
      }
    }
  }
)
puts response

const response = await client.search({
  index: "news",
  query: {
    match: {
      custom_all: "elasticsearch",
    },
  },
  aggs: {
    tags: {
      significant_text: {
        field: "custom_all",
        source_fields: ["content", "title"],
      },
    },
  },
});
console.log(response);

GET news/_search
{
  "query": {
    "match": {
      "custom_all": "elasticsearch"
    }
  },
  "aggs": {
    "tags": {
      "significant_text": {
        "field": "custom_all",
        "source_fields": [ "content", "title" ]
      }
    }
  }
}

Copy as curl Try in Elastic

过滤值

编辑

可以（尽管很少需要）过滤将为其创建存储桶的值。这可以使用基于正则表达式字符串或精确词条数组的 include 和 exclude 参数来完成。此功能与词条聚合文档中描述的功能相对应。

« 显著词条聚合词条聚合 »

On this page

基本用法
使用 filter_duplicate_text 处理嘈杂数据
限制
不支持子聚合
不支持嵌套对象
近似计数
参数
显著性启发式方法
大小 & 分片大小
最小文档计数
shard_min_doc_count
自定义背景上下文
处理源和索引映射
过滤值

Was this helpful?

Feedback

The Search AI Company

Generative AI

Search

Security

Observability

By solution

Industries

显著文本聚合

显著文本聚合

基本用法

使用 filter_duplicate_text 处理嘈杂数据

限制

不支持子聚合

不支持嵌套对象

近似计数

参数

显著性启发式方法

大小 & 分片大小

最小文档计数

shard_min_doc_count

自定义背景上下文

处理源和索引映射

过滤值

Follow us

About us

Join us

Partners

Trust & Security

Investor relations

Excellence Awards

使用 `filter_duplicate_text` 处理嘈杂数据

`shard_min_doc_count`