Elasticsearch 指南其他版本
8.17 中的新功能
Elasticsearch 基础
- 什么是 Elasticsearch?
- 运行 Elasticsearch
- 索引和文档
- 向 Elasticsearch 添加数据
- 搜索和分析数据
- 为生产环境做好准备
快速入门
- 基础：使用 API 进行索引和搜索
- 基础：全文搜索和过滤
- 基础：使用聚合分析电子商务数据
设置 Elasticsearch
- 在本地运行 Elasticsearch
- 安装 Elasticsearch
- 配置 Elasticsearch
- 重要的系统配置
- 引导检查
- X-Pack 的引导检查
- 启动 Elasticsearch
- 停止 Elasticsearch
- 发现和集群形成
- 在集群中添加和删除节点
- 完整集群重启和滚动重启
- 远程集群
- 插件
升级 Elasticsearch
- 已存档设置
- 从较旧的 Elasticsearch 版本读取索引
索引模块
- 分析
- 索引分片分配
- 索引块
- 映射器
- 合并
- 相似度模块
- 慢日志
- 存储
  - 将数据预加载到文件系统缓存中
- 事务日志
- 历史记录保留
- 索引排序
  - 使用索引排序来加速 conjunctions
- 索引压力
映射
- 动态映射
  - 动态字段映射
  - 动态模板
- 显式映射
- 运行时字段
- 字段数据类型
  - 聚合度量
  - 别名
  - 数组
  - 二进制
  - 布尔值
  - 完成
  - 日期
  - 日期纳秒
  - 密集向量
  - 扁平化
  - 地理点
  - 地理形状
  - 直方图
  - IP
  - 连接
  - 关键词
  - 嵌套
  - 数值
  - 对象
  - 传递对象
  - 过滤器
  - 点
  - 范围
  - 排名特征
  - 排名特征
  - 即时搜索
  - 语义文本
  - 形状
  - 稀疏向量
  - 文本
  - 令牌计数
  - 无符号长整型
  - 版本
- 元数据字段
- 映射参数
- 映射限制设置
- 删除映射类型
文本分析
- 概述
- 概念
- 配置文本分析
- 内置分析器参考
  - 指纹
  - 关键词
  - 语言
  - 模式
  - 简单
  - 标准
  - 停止
  - 空格
- 分词器参考
  - 字符组
  - 经典
  - 边缘 N 元
  - 关键词
  - 字母
  - 小写
  - N 元
  - 路径层次结构
  - 模式
  - 简单模式
  - 简单模式分割
  - 标准
  - 泰语
  - UAX URL 电子邮件
  - 空格
- 令牌过滤器参考
  - 省略号
  - ASCII 折叠
  - CJK 双字母
  - CJK 宽度
  - 经典
  - 常用语法
  - 条件
  - 十进制数字
  - 分隔的有效负载
  - 字典复合器
  - 边缘 N 元
  - 省略
  - 指纹
  - 扁平图
  - Hunspell
  - 连字符复合器
  - 保留类型
  - 保留单词
  - 关键字标记
  - 关键字重复
  - KStem
  - 长度
  - 限制令牌计数
  - 小写
  - MinHash
  - 多路复用器
  - N 元
  - 规范化
  - 模式捕获
  - 模式替换
  - 语音
  - Porter 词干
  - 谓词脚本
  - 删除重复项
  - 反转
  - 瓦片
  - 雪球
  - 词干分析器
  - 词干分析器覆盖
  - 停止
  - 同义词
  - 同义词图
  - 修剪
  - 截断
  - 唯一
  - 大写
  - 单词分隔符
  - 单词分隔符图
- 字符过滤器参考
- 规范化器
索引模板
- 模拟多组件模板
- 配置 ignore_missing_component_templates
  - 使用示例
数据流
- 设置数据流
- 使用数据流
- 修改数据流
- 时间序列数据流 (TSDS)
- 日志数据流
- 数据流生命周期
摄取管道
- 示例：解析日志
- 丰富您的数据
- 处理器参考
  - 附加
  - 附件
  - 字节
  - 圆
  - 社区 ID
  - 转换
  - CSV
  - 日期
  - 日期索引名称
  - 剖析
  - 点扩展器
  - 丢弃
  - 丰富
  - 失败
  - 指纹
  - 循环
  - 地理网格
  - GeoIP
  - Grok
  - Gsub
  - HTML 条
  - 推理
  - IP 位置
  - 连接
  - JSON
  - KV
  - 小写
  - 网络方向
  - 管道
  - 编辑
  - 注册域
  - 删除
  - 重命名
  - 重新路由
  - 脚本
  - 设置
  - 设置安全用户
  - 排序
  - 拆分
  - 终止
  - 修剪
  - 大写
  - URL 解码
  - URI 部分
  - 用户代理
- 搜索中的摄取管道
  - 推理处理
  - NLP 教程
别名
搜索您的数据
- 搜索 API
- 搜索相关性优化
- 检索器
  - 检索器示例
- kNN 搜索
- 语义搜索
- 跨集群搜索
- 使用同义词搜索
- 搜索应用程序
- 搜索分析
重新排名
- 语义重新排名
- 学习排名
  - 部署和管理 LTR 模型
  - 使用 LTR 进行搜索
查询 DSL
- 查询和过滤器上下文
- 复合查询
- 全文查询
- 地理位置查询
- 形状查询
  - 形状
- 连接查询
  - 嵌套
  - 有子级
  - 有父级
  - 父级 ID
- 匹配所有
- 跨度查询
- 向量查询
  - Knn
  - 稀疏向量
  - 语义
  - 文本扩展
  - 加权标记
- 专用查询
  - 距离特征
  - 更像这样
  - 渗透
  - 排名特征
  - 脚本
  - 脚本评分
  - 包装器
  - 固定查询
  - 规则
- 词项级查询
  - 存在
  - 模糊
  - ID
  - 前缀
  - 范围
  - 正则表达式
  - 词项
  - 词项集
  - 词项集
  - 通配符
- minimum_should_match 参数
- rewrite 参数
- 正则表达式语法
聚合
- 桶聚合
- 指标聚合
- 管道聚合
地理空间分析
连接器
- 连接器引用
  - Azure Blob 存储
  - Box
  - Confluence
  - Dropbox
  - GitHub
  - Gmail
  - Google Cloud Storage
  - Google Drive
  - GraphQL
  - Jira
  - Microsoft SQL
  - MongoDB
  - MySQL
  - 网络驱动器
  - Notion
  - OneDrive
  - OpenText Documentum
  - Oracle
  - Outlook
  - PostgreSQL
  - Redis
  - S3
  - Salesforce
  - ServiceNow
  - SharePoint Online
  - SharePoint Server
  - Slack
  - Teams
  - Zoom
- 自管理连接器
- Elastic 管理的连接器
  - 管理连接器教程 (MongoDB)
- 构建和自定义连接器
- Kibana 中的连接器 UI
- 连接器 API
  - API 教程
- 内容同步
- 提取和转换
  - 内容提取
  - 同步规则
- 文档级安全性
  - DLS 的工作原理
  - 搜索应用程序中的 DLS
- 管理主题
- 用例
  - 内部知识搜索
- 发行说明
- 已知问题
EQL
- 语法参考
- 函数参考
- 管道参考
- 示例：使用 EQL 检测威胁
ES|QL
- 入门
- ES|QL 参考
- 使用 ES|QL
- 限制
- 示例
SQL
- 概述
- SQL 入门
- 约定和术语
  - 跨 SQL 和 Elasticsearch 的映射概念
- 安全
- SQL REST API
- SQL 转换 API
- SQL CLI
- SQL JDBC
  - API 用法
- SQL ODBC
  - 驱动程序安装
  - 配置
- SQL 客户端应用程序
- SQL 语言
- 函数和运算符
- 保留关键字
- SQL 限制
脚本
- Painless 脚本语言
- 如何编写脚本
- 访问文档中的字段
- 常见脚本用例
  - 字段提取
- 访问文档字段和特殊变量
- 脚本和安全性
- Lucene 表达式语言
- 使用脚本引擎的高级脚本
数据管理
- ILM：管理索引生命周期
- 教程：自定义内置策略
- 教程：自动翻转
- Kibana 中的索引管理
- 概述
- 概念
- 索引生命周期操作
  - 分配
  - 删除
  - 强制合并
  - 迁移
  - 只读
  - 翻转
  - 降采样
  - 可搜索快照
  - 设置优先级
  - 收缩
  - 取消关注
  - 等待快照
- 配置生命周期策略
- 将索引分配过滤器迁移到节点角色
- 解决索引生命周期管理错误
- 启动和停止索引生命周期管理
- 管理现有索引
- 跳过翻转
- 还原托管数据流或索引
- 数据层
自动缩放
- 自动缩放决策器
监视集群
- 概述
- 工作原理
- 在生产环境中监视
- 使用 Elastic Agent 收集监视数据
- 使用 Metricbeat 收集监视数据
- 使用 Filebeat 收集日志数据
- 配置用于监视的数据流/索引
- 旧版收集方法
汇总或转换数据
- 汇总历史数据
- 转换数据
设置高可用性集群
- 弹性设计
  - 小型集群中的弹性
  - 大型集群中的弹性
- 跨集群复制
快照和还原
- 注册存储库
- 创建快照
- 还原快照
- 可搜索快照
保护 Elastic Stack 的安全
- Elasticsearch 安全原则
- 自动启用安全性启动 Elastic Stack
- 手动配置安全性
- 更新节点安全证书
  - 使用相同的 CA
  - 使用不同的 CA
- 用户身份验证
- 用户授权
- 启用审计日志
- 使用 IP 过滤限制连接
- 保护客户端和集成
- 操作员权限
- 故障排除
- 限制
Watcher
- Watcher 入门
- Watcher 的工作原理
- 在 Watcher 中加密敏感数据
- 输入
- 触发器
  - 计划触发器
- 条件
- 操作
- 转换
- 管理监控
- 示例监控
  - 监控 Elasticsearch 集群的状态
- 限制
命令行工具
- elasticsearch-certgen
- elasticsearch-certutil
- elasticsearch-create-enrollment-token
- elasticsearch-croneval
- elasticsearch-keystore
- elasticsearch-node
- elasticsearch-reconfigure-node
- elasticsearch-reset-password
- elasticsearch-saml-metadata
- elasticsearch-service-tokens
- elasticsearch-setup-passwords
- elasticsearch-shard
- elasticsearch-syskeygen
- elasticsearch-users
优化
- 一般建议
- 调整索引速度
- 调整搜索速度
- 调整近似 kNN 搜索
- 调整磁盘使用量
- 调整分片大小
- 将 Elasticsearch 用于时间序列数据
故障排除
- 修复常见的集群问题
  - 水位错误
  - 断路器错误
  - 高 CPU 使用率
  - 高 JVM 内存压力
  - 红色或黄色集群健康状态
  - 拒绝的请求
  - 任务队列积压
  - 映射爆炸
  - 热点
- 诊断未分配的分片
- 向系统中添加丢失的层
- 允许 Elasticsearch 在系统中分配数据
- 允许 Elasticsearch 分配索引
- 索引将索引分配过滤器与数据层节点角色混合，以在数据层之间移动
- 没有足够的节点来分配所有分片副本
- 单个节点上索引的分片总数已超过
- 每个节点的分片总数已达到
- 故障排除损坏
- 修复磁盘空间不足的数据节点
  - 增加数据节点的磁盘容量
  - 减少数据节点的磁盘使用量
- 修复磁盘空间不足的主节点
- 修复磁盘空间不足的其他角色节点
- 启动索引生命周期管理
- 启动快照生命周期管理
- 从快照恢复
- 故障排除损坏的存储库
  - 诊断损坏的存储库
  - 诊断未知存储库
  - 诊断无效存储库
- 解决重复的快照策略失败问题
- 故障排除不稳定的集群
- 故障排除发现
- 故障排除监控
- 故障排除转换
- 故障排除 Watcher
- 故障排除搜索
- 故障排除分片容量健康问题
- 故障排除不平衡的集群
- 捕获诊断信息
REST API
- API 约定
- 通用选项
- REST API 兼容性
- 自动缩放 API
  - 创建或更新自动缩放策略
  - 获取自动缩放容量
  - 删除自动缩放策略
  - 获取自动缩放策略
- 行为分析 API
  - 放置分析集合
  - 删除分析集合
  - 列出分析集合
  - 发布分析集合事件
- 紧凑和对齐文本 (CAT) API
  - cat 别名
  - cat 分配
  - cat 异常检测器
  - cat 组件模板
  - cat 计数
  - cat 数据帧分析
  - cat 数据馈送
  - cat 字段数据
  - cat 健康
  - cat 索引
  - cat 主节点
  - cat 节点属性
  - cat 节点
  - cat 待处理任务
  - cat 插件
  - cat 恢复
  - cat 存储库
  - cat 段
  - cat 分片
  - cat 快照
  - cat 任务管理
  - cat 模板
  - cat 线程池
  - cat 训练模型
  - cat 转换
- 集群 API
  - 集群分配解释
  - 集群获取设置
  - 集群健康
  - 健康
  - 集群重新路由
  - 集群状态
  - 集群统计信息
  - 集群更新设置
  - 节点功能使用情况
  - 节点热线程
  - 节点信息
  - 预验证节点移除
  - 节点重新加载安全设置
  - 节点统计信息
  - 集群信息
  - 待处理的集群任务
  - 远程集群信息
  - 任务管理
  - 投票配置排除项
  - 创建或更新所需节点
  - 获取所需节点
  - 删除所需节点
  - 获取所需平衡
  - 重置所需平衡
- 跨集群复制 API
  - 获取 CCR 统计信息
  - 创建跟随者
  - 暂停跟随者
  - 恢复跟随者
  - 取消关注
  - 忘记跟随者
  - 获取跟随者统计信息
  - 获取跟随者信息
  - 创建自动跟随模式
  - 删除自动跟随模式
  - 获取自动跟随模式
  - 暂停自动跟随模式
  - 恢复自动跟随模式
- 连接器 API
  - 创建连接器
  - 删除连接器
  - 获取连接器
  - 列出连接器
  - 更新连接器 API 密钥 ID
  - 更新连接器配置
  - 更新连接器索引名称
  - 更新连接器功能
  - 更新连接器筛选
  - 更新连接器名称和描述
  - 更新连接器管道
  - 更新连接器调度
  - 更新连接器服务类型
  - 创建连接器同步作业
  - 取消连接器同步作业
  - 删除连接器同步作业
  - 获取连接器同步作业
  - 列出连接器同步作业
  - 检入连接器
  - 更新连接器错误
  - 更新连接器上次同步统计信息
  - 更新连接器状态
  - 检入连接器同步作业
  - 声明连接器同步作业
  - 设置连接器同步作业错误
  - 设置连接器同步作业统计信息
- 数据流 API
  - 创建数据流
  - 删除数据流
  - 获取数据流
  - 迁移到数据流
  - 数据流统计信息
  - 升级数据流
  - 修改数据流
  - 放置数据流生命周期
  - 获取数据流生命周期
  - 删除数据流生命周期
  - 解释数据流生命周期
  - 获取数据流生命周期
  - 降采样
- 文档 API
  - 读取和写入文档
  - 索引
  - 获取
  - 删除
  - 按查询删除
  - 更新
  - 按查询更新
  - 多重获取
  - 批量
  - 重新索引
  - 词条向量
  - 多词条向量
  - ?refresh
  - 乐观并发控制
- 丰富 API
  - 创建丰富策略
  - 删除丰富策略
  - 获取丰富策略
  - 执行丰富策略
  - 丰富统计信息
- EQL API
  - 删除异步 EQL 搜索
  - EQL 搜索
  - 获取异步 EQL 搜索
  - 获取异步 EQL 搜索状态
- ES|QL API
  - ES|QL 查询 API
  - ES|QL 异步查询 API
  - ES|QL 异步查询获取 API
  - ES|QL 异步查询删除 API
- 功能 API
  - 获取功能
  - 重置功能
- Fleet API
  - 获取全局检查点
  - Fleet 搜索
  - Fleet 多重搜索
- 图表探索 API
- 索引 API
  - 别名是否存在
  - 别名
  - 分析
  - 分析索引磁盘使用量
  - 清除缓存
  - 克隆索引
  - 关闭索引
  - 创建索引
  - 创建或更新别名
  - 创建或更新组件模板
  - 创建或更新索引模板
  - 创建或更新索引模板（旧版）
  - 删除组件模板
  - 删除悬挂索引
  - 删除别名
  - 删除索引
  - 删除索引模板
  - 删除索引模板（旧版）
  - 存在
  - 字段使用情况统计信息
  - 刷新
  - 强制合并
  - 获取别名
  - 获取组件模板
  - 获取字段映射
  - 获取索引
  - 获取索引设置
  - 获取索引模板
  - 获取索引模板（旧版）
  - 获取映射
  - 导入悬挂索引
  - 索引恢复
  - 索引段
  - 索引分片存储
  - 索引统计信息
  - 索引模板是否存在（旧版）
  - 列出悬挂索引
  - 打开索引
  - 刷新
  - 解析索引
  - 解析集群
  - 翻转
  - 收缩索引
  - 模拟索引
  - 模拟模板
  - 拆分索引
  - 解冻索引
  - 更新索引设置
  - 更新映射
- 索引生命周期管理 API
  - 创建或更新生命周期策略
  - 获取策略
  - 删除策略
  - 移动到步骤
  - 删除策略
  - 重试策略
  - 获取索引生命周期管理状态
  - 解释生命周期
  - 启动索引生命周期管理
  - 停止索引生命周期管理
  - 将索引、ILM 策略以及旧版、可组合和组件模板迁移到数据层路由
- 推理 API
  - 删除推理 API
  - 获取推理 API
  - 执行推理 API
  - 创建推理 API
  - 流式推理 API
  - 更新推理 API
  - 阿里云 AI 搜索推理服务
  - Amazon Bedrock 推理服务
  - Anthropic 推理服务
  - Azure AI Studio 推理服务
  - Azure OpenAI 推理服务
  - Cohere 推理服务
  - Elasticsearch 推理服务
  - ELSER 推理服务
  - Google AI Studio 推理服务
  - Google Vertex AI 推理服务
  - HuggingFace 推理服务
  - Mistral 推理服务
  - OpenAI 推理服务
  - Watsonx 推理服务
- 信息 API
- 摄取 API
  - 创建或更新管道
  - 获取管道
  - 删除管道
  - 模拟管道
  - 模拟摄取
  - GeoIP 统计
  - 创建或更新 IP 地理位置数据库配置
  - 获取 IP 地理位置数据库配置
  - 删除 IP 地理位置数据库配置
- 许可 API
  - 删除许可证
  - 获取许可证
  - 获取试用状态
  - 开始试用
  - 获取基本状态
  - 开始基本版
  - 更新许可证
- Logstash API
  - 创建或更新 Logstash 管道
  - 删除 Logstash 管道
  - 获取 Logstash 管道
- 机器学习 API
  - 获取机器学习信息
  - 获取机器学习内存统计
  - 设置升级模式
- 机器学习异常检测 API
  - 向日历添加事件
  - 向日历添加作业
  - 关闭作业
  - 创建作业
  - 创建日历
  - 创建数据源
  - 创建过滤器
  - 删除日历
  - 删除数据源
  - 从日历中删除事件
  - 删除过滤器
  - 删除预测
  - 删除作业
  - 从日历中删除作业
  - 删除模型快照
  - 删除过期数据
  - 估计模型内存
  - 刷新作业
  - 预测作业
  - 获取存储桶
  - 获取日历
  - 获取类别
  - 获取数据源
  - 获取数据源统计
  - 获取影响因素
  - 获取作业
  - 获取作业统计
  - 获取模型快照
  - 获取模型快照升级统计
  - 获取总体存储桶
  - 获取计划事件
  - 获取过滤器
  - 获取记录
  - 打开作业
  - 向作业发布数据
  - 预览数据源
  - 重置作业
  - 还原模型快照
  - 启动数据源
  - 停止数据源
  - 更新数据源
  - 更新过滤器
  - 更新作业
  - 更新模型快照
  - 升级模型快照
- 机器学习数据帧分析 API
  - 创建数据帧分析作业
  - 删除数据帧分析作业
  - 评估数据帧分析
  - 解释数据帧分析
  - 获取数据帧分析作业
  - 获取数据帧分析作业统计
  - 预览数据帧分析
  - 启动数据帧分析作业
  - 停止数据帧分析作业
  - 更新数据帧分析作业
- 机器学习训练模型 API
  - 清除训练模型部署缓存
  - 创建或更新训练模型别名
  - 创建训练模型的一部分
  - 创建训练模型
  - 创建训练模型词汇表
  - 删除训练模型别名
  - 删除训练模型
  - 获取训练模型
  - 获取训练模型统计
  - 推断训练模型
  - 启动训练模型部署
  - 停止训练模型部署
  - 更新训练模型部署
- 迁移 API
  - 弃用信息
  - 功能迁移
- 节点生命周期 API
  - 放置关闭 API
  - 获取关闭 API
  - 删除关闭 API
- 查询规则 API
  - 创建或更新查询规则集
  - 获取查询规则集
  - 列出查询规则集
  - 删除查询规则集
  - 创建或更新查询规则
  - 获取查询规则
  - 删除查询规则
  - 测试查询规则集
- 重新加载搜索分析器 API
- 存储库计量 API
  - 获取存储库计量信息
  - 清除存储库计量存档
- 汇总 API
  - 创建汇总作业
  - 删除汇总作业
  - 获取作业
  - 获取汇总上限
  - 获取汇总索引上限
  - 汇总搜索
  - 启动汇总作业
  - 停止汇总作业
- 根 API
- 脚本 API
  - 创建或更新存储脚本
  - 删除存储脚本
  - 获取脚本上下文
  - 获取脚本语言
  - 获取存储脚本
- 搜索 API
  - 搜索
  - 异步搜索
  - 时间点
  - kNN 搜索
  - 检索器
  - 倒数排名融合
  - 滚动
  - 清除滚动
  - 搜索模板
  - 多搜索模板
  - 渲染搜索模板
  - 搜索分片
  - 建议器
  - 多搜索
  - 计数
  - 验证
  - 术语枚举
  - 解释
  - 剖析
  - 字段功能
  - 排名评估
  - 矢量图块搜索
- 搜索应用程序 API
  - 放置搜索应用程序
  - 获取搜索应用程序
  - 列出搜索应用程序
  - 删除搜索应用程序
  - 搜索应用程序搜索
  - 渲染搜索应用程序查询
- 可搜索快照 API
  - 挂载快照
  - 缓存统计
  - 可搜索快照统计
  - 清除缓存
- 安全 API
  - 身份验证
  - 更改密码
  - 清除缓存
  - 清除角色缓存
  - 清除权限缓存
  - 清除 API 密钥缓存
  - 清除服务帐户令牌缓存
  - 创建 API 密钥
  - 创建或更新应用程序权限
  - 创建或更新角色映射
  - 创建或更新角色
  - 批量创建或更新角色 API
  - 批量删除角色 API
  - 创建或更新用户
  - 创建服务帐户令牌
  - 委托 PKI 身份验证
  - 删除应用程序权限
  - 删除角色映射
  - 删除角色
  - 删除服务帐户令牌
  - 删除用户
  - 禁用用户
  - 启用用户
  - 注册 Kibana
  - 注册节点
  - 获取 API 密钥信息
  - 获取应用程序权限
  - 获取内置权限
  - 获取角色映射
  - 获取角色
  - 查询角色
  - 获取服务帐户
  - 获取服务帐户凭据
  - 获取安全设置
  - 获取令牌
  - 获取用户权限
  - 获取用户
  - 授予 API 密钥
  - 具有权限
  - 使 API 密钥失效
  - 使令牌失效
  - OpenID Connect 准备身份验证
  - OpenID Connect 身份验证
  - OpenID Connect 注销
  - 查询 API 密钥信息
  - 查询用户
  - 更新 API 密钥
  - 更新安全设置
  - 批量更新 API 密钥
  - SAML 准备身份验证
  - SAML 身份验证
  - SAML 注销
  - SAML 失效
  - SAML 完成注销
  - SAML 服务提供商元数据
  - SSL 证书
  - 激活用户配置文件
  - 禁用用户配置文件
  - 启用用户配置文件
  - 获取用户配置文件
  - 建议用户配置文件
  - 更新用户配置文件数据
  - 具有用户配置文件权限
  - 创建跨集群 API 密钥
  - 更新跨集群 API 密钥
- 快照和还原 API
  - 创建或更新快照存储库
  - 验证快照存储库
  - 存储库分析
  - 验证存储库完整性
  - 获取快照存储库
  - 删除快照存储库
  - 清理快照存储库
  - 克隆快照
  - 创建快照
  - 获取快照
  - 获取快照状态
  - 还原快照
  - 删除快照
- 快照生命周期管理 API
  - 创建或更新策略
  - 获取策略
  - 删除策略
  - 执行快照生命周期策略
  - 执行快照保留策略
  - 获取快照生命周期管理状态
  - 获取快照生命周期统计
  - 启动快照生命周期管理
  - 停止快照生命周期管理
- SQL API
  - 清除 SQL 光标
  - 删除异步 SQL 搜索
  - 获取异步 SQL 搜索
  - 获取异步 SQL 搜索状态
  - SQL 搜索
  - SQL 转换
- 同义词 API
  - 创建或更新同义词集
  - 获取同义词集
  - 列出同义词集
  - 删除同义词集
  - 创建或更新同义词规则
  - 获取同义词规则
  - 删除同义词规则
- 文本结构 API
  - 查找字段结构 API
  - 查找消息结构 API
  - 查找文本结构 API
  - 测试 Grok 模式
- 转换 API
  - 创建转换
  - 删除转换
  - 获取转换
  - 获取转换统计
  - 预览转换
  - 重置转换
  - 立即计划转换
  - 启动转换
  - 停止转换
  - 更新转换
  - 升级转换
- 使用情况 API
- Watcher API
  - 确认观察
  - 激活观察
  - 停用观察
  - 删除观察
  - 执行观察
  - 获取观察
  - 获取 Watcher 统计
  - 查询观察
  - 创建或更新观察
  - 更新 Watcher 设置
  - 获取 Watcher 设置
  - 启动观察服务
  - 停止观察服务
- 定义
  - 角色映射资源
迁移指南
- 8.17
- 8.16
- 8.15
- 8.14
- 8.13
- 8.12
- 8.11
- 8.10
- 8.9
- 8.8
- 8.7
- 8.6
- 8.5
- 8.4
- 8.3
- 8.2
- 8.1
- 8.0
  - Java 时间迁移指南
  - 瞬态设置迁移指南
发行说明
- Elasticsearch 版本 8.17.0
- Elasticsearch 版本 8.16.1
- Elasticsearch 版本 8.16.0
- Elasticsearch 版本 8.15.5
- Elasticsearch 版本 8.15.4
- Elasticsearch 版本 8.15.3
- Elasticsearch 版本 8.15.2
- Elasticsearch 版本 8.15.1
- Elasticsearch 版本 8.15.0
- Elasticsearch 版本 8.14.3
- Elasticsearch 版本 8.14.2
- Elasticsearch 版本 8.14.1
- Elasticsearch 版本 8.14.0
- Elasticsearch 版本 8.13.4
- Elasticsearch 版本 8.13.3
- Elasticsearch 版本 8.13.2
  - 错误修复
- Elasticsearch 版本 8.13.1
  - 错误修复
- Elasticsearch 版本 8.13.0
- Elasticsearch 版本 8.12.2
- Elasticsearch 版本 8.12.1
- Elasticsearch 版本 8.12.0
- Elasticsearch 版本 8.11.4
- Elasticsearch 版本 8.11.3
- Elasticsearch 版本 8.11.2
- Elasticsearch 版本 8.11.1
- Elasticsearch 版本 8.11.0
- Elasticsearch 版本 8.10.4
- Elasticsearch 版本 8.10.3
- Elasticsearch 版本 8.10.2
- Elasticsearch 版本 8.10.1
- Elasticsearch 版本 8.10.0
- Elasticsearch 版本 8.9.2
- Elasticsearch 版本 8.9.1
- Elasticsearch 版本 8.9.0
- Elasticsearch 版本 8.8.2
- Elasticsearch 版本 8.8.1
- Elasticsearch 版本 8.8.0
- Elasticsearch 版本 8.7.1
- Elasticsearch 版本 8.7.0
- Elasticsearch 版本 8.6.2
- Elasticsearch 版本 8.6.1
- Elasticsearch 版本 8.6.0
- Elasticsearch 版本 8.5.3
- Elasticsearch 版本 8.5.2
- Elasticsearch 版本 8.5.1
- Elasticsearch 版本 8.5.0
- Elasticsearch 版本 8.4.3
- Elasticsearch 版本 8.4.2
- Elasticsearch 版本 8.4.1
- Elasticsearch 版本 8.4.0
- Elasticsearch 版本 8.3.3
- Elasticsearch 版本 8.3.2
- Elasticsearch 版本 8.3.1
- Elasticsearch 版本 8.3.0
- Elasticsearch 版本 8.2.3
- Elasticsearch 版本 8.2.2
- Elasticsearch 版本 8.2.1
- Elasticsearch 版本 8.2.0
- Elasticsearch 版本 8.1.3
- Elasticsearch 版本 8.1.2
- Elasticsearch 版本 8.1.1
- Elasticsearch 版本 8.1.0
- Elasticsearch 版本 8.0.1
- Elasticsearch 版本 8.0.0
- Elasticsearch 版本 8.0.0-rc2
- Elasticsearch 版本 8.0.0-rc1
- Elasticsearch 版本 8.0.0-beta1
- Elasticsearch 版本 8.0.0-alpha2
- Elasticsearch 版本 8.0.0-alpha1
依赖项和版本

› › ›

高亮显示

编辑

高亮显示

编辑

高亮器使您可以从搜索结果中的一个或多个字段中获取高亮片段，以便您可以向用户显示查询匹配的位置。当您请求高亮显示时，响应会为每个搜索命中包含一个额外的 highlight 元素，其中包含高亮显示的字段和高亮显示的片段。

高亮器在提取要高亮的术语时，不会反映查询的布尔逻辑。因此，对于某些复杂的布尔查询（例如嵌套的布尔查询、使用 minimum_should_match 等的查询），文档的某些部分可能会被高亮显示，而这些部分与查询匹配不对应。

高亮显示需要字段的实际内容。如果字段未存储（映射未将 store 设置为 true），则会加载实际的 _source，并从 _source 中提取相关字段。

例如，要使用默认高亮器获取每个搜索命中中 content 字段的高亮显示，请在请求正文中包含一个 highlight 对象，该对象指定 content 字段

resp = client.search(
    query={
        "match": {
            "content": "kimchy"
        }
    },
    highlight={
        "fields": {
            "content": {}
        }
    },
)
print(resp)

response = client.search(
  body: {
    query: {
      match: {
        content: 'kimchy'
      }
    },
    highlight: {
      fields: {
        content: {}
      }
    }
  }
)
puts response

const response = await client.search({
  query: {
    match: {
      content: "kimchy",
    },
  },
  highlight: {
    fields: {
      content: {},
    },
  },
});
console.log(response);

GET /_search
{
  "query": {
    "match": { "content": "kimchy" }
  },
  "highlight": {
    "fields": {
      "content": {}
    }
  }
}

Copy as curl Try in Elastic

Elasticsearch 支持三种高亮器：unified、plain 和 fvh（快速向量高亮器）。您可以为每个字段指定要使用的高亮器 type。

统一高亮器

编辑

unified 高亮器使用 Lucene Unified 高亮器。此高亮器将文本分解为句子，并使用 BM25 算法对各个句子进行评分，就好像它们是语料库中的文档一样。它还支持准确的短语和多词（模糊、前缀、正则表达式）高亮显示。unified 高亮器可以将多个字段的匹配项组合到一个结果中（请参阅 matched_fields）。这是默认的高亮器。

普通高亮器

编辑

plain 高亮器使用标准的 Lucene 高亮器。它尝试反映查询匹配逻辑，包括理解单词的重要性以及短语查询中的任何单词定位标准。

plain 高亮器最适合高亮显示单个字段中的简单查询匹配。为了准确反映查询逻辑，它会创建一个小型内存索引，并通过 Lucene 的查询执行计划器重新运行原始查询条件，以获取当前文档的低级匹配信息。这对需要高亮显示的每个字段和每个文档重复执行。如果您想在高亮显示具有复杂查询的许多文档中的许多字段，我们建议在 postings 或 term_vector 字段上使用 unified 高亮器。

快速向量高亮器

编辑

fvh 高亮器使用 Lucene 快速向量高亮器。此高亮器可用于映射中将 term_vector 设置为 with_positions_offsets 的字段。快速向量高亮器

可以使用 boundary_scanner 进行自定义。
需要将 term_vector 设置为 with_positions_offsets，这会增加索引的大小
可以将多个字段的匹配项组合到一个结果中。请参阅 matched_fields
可以为不同位置的匹配项分配不同的权重，从而允许在突出显示短语匹配时，将短语匹配项排序在术语匹配项之上，从而提高短语匹配项的 Boosting Query

fvh 高亮器不支持跨度查询。如果您需要支持跨度查询，请尝试其他高亮器，例如 unified 高亮器。

偏移量策略

编辑

要从查询的术语创建有意义的搜索片段，高亮器需要知道原始文本中每个单词的起始和结束字符偏移量。这些偏移量可以从以下位置获得

倒排列表。如果在映射中将 index_options 设置为 offsets，则 unified 高亮器会使用此信息来高亮显示文档，而无需重新分析文本。它直接在倒排列表上重新运行原始查询，并从索引中提取匹配的偏移量，从而将集合限制为高亮显示的文档。如果您有大型字段，这很重要，因为它不需要重新分析要高亮显示的文本。它还比使用 term_vectors 需要更少的磁盘空间。
词向量。如果通过在映射中将 term_vector 设置为 with_positions_offsets 来提供 term_vector 信息，则 unified 高亮器会自动使用 term_vector 来高亮显示该字段。它速度很快，尤其是对于大型字段（> 1MB）和高亮显示多词查询（如 prefix 或 wildcard），因为它可以使用每个文档的术语字典。fvh 高亮器始终使用词向量。
普通高亮显示。当没有其他选择时，unified 使用此模式。它会创建一个小型内存索引，并通过 Lucene 的查询执行计划器重新运行原始查询条件，以获取当前文档的低级匹配信息。这对需要高亮显示的每个字段和每个文档重复执行。plain 高亮器始终使用普通高亮显示。

对于大型文本，普通高亮显示可能需要大量时间和内存。为了防止这种情况，将被分析的最大文本字符数限制为 1000000。可以使用索引设置 index.highlight.max_analyzed_offset 为特定索引更改此默认限制。

高亮显示设置

编辑

高亮显示设置可以在全局级别设置，并在字段级别覆盖。

boundary_chars: 一个字符串，其中包含每个边界字符。默认为 .,!? \t\n。
boundary_max_scan: 扫描边界字符的距离。默认为 20。

boundary_scanner

指定如何分隔高亮显示的片段：chars、sentence 或 word。仅对 unified 和 fvh 高亮器有效。对于 unified 高亮器，默认为 sentence。对于 fvh 高亮器，默认为 chars。

chars: 使用 boundary_chars 指定的字符作为高亮显示边界。boundary_max_scan 设置控制扫描边界字符的距离。仅对 fvh 高亮器有效。
sentence: 在下一个句子边界处分隔高亮显示的片段，该边界由 Java 的 BreakIterator 确定。您可以使用 boundary_scanner_locale 指定要使用的区域设置。

当与 unified 高亮器一起使用时，sentence 扫描程序会在 fragment_size 旁边的第一个单词边界处拆分大于 fragment_size 的句子。您可以将 fragment_size 设置为 0，以永远不拆分任何句子。
word: 在下一个单词边界处分隔高亮显示的片段，该边界由 Java 的 BreakIterator 确定。您可以使用 boundary_scanner_locale 指定要使用的区域设置。

boundary_scanner_locale

控制用于搜索句子和单词边界的区域设置。此参数采用语言标记的形式，例如 "en-US"、"fr-FR"、"ja-JP"。有关详细信息，请参阅区域设置语言标记文档。默认值为 Locale.ROOT。

encoder

指示是否应对片段进行 HTML 编码：default（不编码）或 html（HTML 转义片段文本，然后插入高亮显示标记）

fields

指定要检索高亮显示的字段。您可以使用通配符来指定字段。例如，您可以指定 comment_* 以获取所有以 comment_ 开头的 text、match_only_text 和 keyword 字段的高亮显示。

当您使用通配符时，只会高亮显示文本、match_only_text 和关键字字段。如果您使用自定义映射器并仍想在高亮显示某个字段，则必须显式指定该字段名称。

fragmenter

指定如何在突出显示片段中分割文本：simple 或 span。仅对 plain 高亮器有效。默认为 span。

force_source

已弃用；此参数无效

simple: 将文本分成大小相同的片段。
span: 将文本分成大小相同的片段，但会尽量避免在高亮显示的术语之间分割文本。当您查询短语时，这很有用。默认值。

fragment_offset

控制要开始高亮显示的边距。仅在使用 fvh 高亮器时有效。

fragment_size

高亮显示片段的大小，以字符为单位。默认为 100。

highlight_query

高亮显示与搜索查询不同的查询的匹配项。如果您使用重打分查询，则这尤其有用，因为默认情况下，高亮显示不会考虑这些查询。

Elasticsearch 不会验证 highlight_query 是否以任何方式包含搜索查询，因此可以定义它，使合法的查询结果不会被高亮显示。通常，您应该将搜索查询作为 highlight_query 的一部分包含在内。

matched_fields

合并多个字段的匹配项以高亮显示单个字段。这对于以不同方式分析相同字符串的多字段最为直观。对 unified 和 fvh 高亮器有效，但此选项的行为对于每个高亮器都不同。

对于 unified 高亮器

matched_fields 数组不应包含您想要高亮显示的原始字段。原始字段将自动添加到 matched_fields，并且在突出显示时无法排除其匹配项。
matched_fields 和原始字段可以使用不同的策略进行索引（带有或不带有 offsets，带有或不带有 term_vectors）。
仅加载组合匹配项的原始字段，因此只有该字段才能从将 store 设置为 yes 中受益

对于 fvh 高亮器

matched_fields 数组可以包含也可以不包含原始字段，具体取决于您的需求。如果要在高亮显示中包含原始字段的匹配项，请将其添加到 matched_fields 数组中。
所有 matched_fields 都必须将 term_vector 设置为 with_positions_offsets
仅加载组合匹配项的原始字段，因此只有该字段才能从将 store 设置为 yes 中受益。

no_match_size

如果没有要高亮显示的匹配片段，则要从字段开头返回的文本量。默认为 0（不返回任何内容）。

number_of_fragments

要返回的最大片段数。如果将片段数设置为 0，则不会返回任何片段。而是高亮显示并返回整个字段内容。当您需要高亮显示诸如标题或地址之类的短文本，但不需要片段化时，这会很方便。如果 number_of_fragments 为 0，则忽略 fragment_size。默认为 5。

order

当设置为 score 时，按分数对高亮显示的片段进行排序。默认情况下，片段将按照它们在字段中出现的顺序输出（order: none）。将此选项设置为 score 将首先输出最相关的片段。每个高亮器都应用其自身的逻辑来计算相关性分数。有关不同高亮器如何查找最佳片段的更多详细信息，请参阅文档高亮器内部工作原理。

phrase_limit

控制文档中考虑的匹配短语的数量。防止 fvh 高亮器分析过多短语并消耗过多内存。当使用 matched_fields 时，将考虑每个匹配字段的 phrase_limit 个短语。提高限制会增加查询时间并消耗更多内存。仅 fvh 高亮器支持。默认为 256。

pre_tags

与 post_tags 结合使用，以定义用于高亮显示文本的 HTML 标签。默认情况下，高亮显示的文本包裹在  和  标签中。指定为字符串数组。

post_tags

与 pre_tags 结合使用，以定义用于高亮显示文本的 HTML 标签。默认情况下，高亮显示的文本包裹在  和  标签中。指定为字符串数组。

require_field_match

默认情况下，只会高亮显示包含查询匹配项的字段。将 require_field_match 设置为 false 可高亮显示所有字段。默认为 true。

max_analyzed_offset

默认情况下，高亮显示请求分析的最大字符数受 index.highlight.max_analyzed_offset 设置中定义的值限制，并且当字符数超过此限制时，将返回错误。如果此设置设置为非负值，则高亮显示将在定义的上限处停止，并且不处理其余文本，因此不会高亮显示且不会返回错误。max_analyzed_offset 查询设置不会覆盖 index.highlight.max_analyzed_offset，当其设置为低于查询设置的值时，该设置优先。

tags_schema

设置为 styled 以使用内置的标签模式。styled 模式定义以下 pre_tags，并将 post_tags 定义为 。

<em class="hlt1">, <em class="hlt2">, <em class="hlt3">,
<em class="hlt4">, <em class="hlt5">, <em class="hlt6">,
<em class="hlt7">, <em class="hlt8">, <em class="hlt9">,
<em class="hlt10">

type: 要使用的高亮器：unified、plain 或 fvh。默认为 unified。

高亮显示示例

编辑

覆盖全局设置

编辑

您可以全局指定高亮器设置，并有选择地覆盖单个字段的设置。

resp = client.search(
    query={
        "match": {
            "user.id": "kimchy"
        }
    },
    highlight={
        "number_of_fragments": 3,
        "fragment_size": 150,
        "fields": {
            "body": {
                "pre_tags": [
                    "<em>"
                ],
                "post_tags": [
                    "</em>"
                ]
            },
            "blog.title": {
                "number_of_fragments": 0
            },
            "blog.author": {
                "number_of_fragments": 0
            },
            "blog.comment": {
                "number_of_fragments": 5,
                "order": "score"
            }
        }
    },
)
print(resp)

response = client.search(
  body: {
    query: {
      match: {
        'user.id' => 'kimchy'
      }
    },
    highlight: {
      number_of_fragments: 3,
      fragment_size: 150,
      fields: {
        body: {
          pre_tags: [
            '<em>'
          ],
          post_tags: [
            '</em>'
          ]
        },
        'blog.title' => {
          number_of_fragments: 0
        },
        'blog.author' => {
          number_of_fragments: 0
        },
        'blog.comment' => {
          number_of_fragments: 5,
          order: 'score'
        }
      }
    }
  }
)
puts response

const response = await client.search({
  query: {
    match: {
      "user.id": "kimchy",
    },
  },
  highlight: {
    number_of_fragments: 3,
    fragment_size: 150,
    fields: {
      body: {
        pre_tags: ["<em>"],
        post_tags: ["</em>"],
      },
      "blog.title": {
        number_of_fragments: 0,
      },
      "blog.author": {
        number_of_fragments: 0,
      },
      "blog.comment": {
        number_of_fragments: 5,
        order: "score",
      },
    },
  },
});
console.log(response);

GET /_search
{
  "query" : {
    "match": { "user.id": "kimchy" }
  },
  "highlight" : {
    "number_of_fragments" : 3,
    "fragment_size" : 150,
    "fields" : {
      "body" : { "pre_tags" : ["<em>"], "post_tags" : ["</em>"] },
      "blog.title" : { "number_of_fragments" : 0 },
      "blog.author" : { "number_of_fragments" : 0 },
      "blog.comment" : { "number_of_fragments" : 5, "order" : "score" }
    }
  }
}

Copy as curl Try in Elastic

指定高亮显示查询

编辑

您可以指定一个 highlight_query，以便在突出显示时考虑其他信息。例如，以下查询在 highlight_query 中同时包含搜索查询和重新评分查询。如果没有 highlight_query，则高亮显示只会考虑搜索查询。

resp = client.search(
    query={
        "match": {
            "comment": {
                "query": "foo bar"
            }
        }
    },
    rescore={
        "window_size": 50,
        "query": {
            "rescore_query": {
                "match_phrase": {
                    "comment": {
                        "query": "foo bar",
                        "slop": 1
                    }
                }
            },
            "rescore_query_weight": 10
        }
    },
    source=False,
    highlight={
        "order": "score",
        "fields": {
            "comment": {
                "fragment_size": 150,
                "number_of_fragments": 3,
                "highlight_query": {
                    "bool": {
                        "must": {
                            "match": {
                                "comment": {
                                    "query": "foo bar"
                                }
                            }
                        },
                        "should": {
                            "match_phrase": {
                                "comment": {
                                    "query": "foo bar",
                                    "slop": 1,
                                    "boost": 10
                                }
                            }
                        },
                        "minimum_should_match": 0
                    }
                }
            }
        }
    },
)
print(resp)

response = client.search(
  body: {
    query: {
      match: {
        comment: {
          query: 'foo bar'
        }
      }
    },
    rescore: {
      window_size: 50,
      query: {
        rescore_query: {
          match_phrase: {
            comment: {
              query: 'foo bar',
              slop: 1
            }
          }
        },
        rescore_query_weight: 10
      }
    },
    _source: false,
    highlight: {
      order: 'score',
      fields: {
        comment: {
          fragment_size: 150,
          number_of_fragments: 3,
          highlight_query: {
            bool: {
              must: {
                match: {
                  comment: {
                    query: 'foo bar'
                  }
                }
              },
              should: {
                match_phrase: {
                  comment: {
                    query: 'foo bar',
                    slop: 1,
                    boost: 10
                  }
                }
              },
              minimum_should_match: 0
            }
          }
        }
      }
    }
  }
)
puts response

const response = await client.search({
  query: {
    match: {
      comment: {
        query: "foo bar",
      },
    },
  },
  rescore: {
    window_size: 50,
    query: {
      rescore_query: {
        match_phrase: {
          comment: {
            query: "foo bar",
            slop: 1,
          },
        },
      },
      rescore_query_weight: 10,
    },
  },
  _source: false,
  highlight: {
    order: "score",
    fields: {
      comment: {
        fragment_size: 150,
        number_of_fragments: 3,
        highlight_query: {
          bool: {
            must: {
              match: {
                comment: {
                  query: "foo bar",
                },
              },
            },
            should: {
              match_phrase: {
                comment: {
                  query: "foo bar",
                  slop: 1,
                  boost: 10,
                },
              },
            },
            minimum_should_match: 0,
          },
        },
      },
    },
  },
});
console.log(response);

GET /_search
{
  "query": {
    "match": {
      "comment": {
        "query": "foo bar"
      }
    }
  },
  "rescore": {
    "window_size": 50,
    "query": {
      "rescore_query": {
        "match_phrase": {
          "comment": {
            "query": "foo bar",
            "slop": 1
          }
        }
      },
      "rescore_query_weight": 10
    }
  },
  "_source": false,
  "highlight": {
    "order": "score",
    "fields": {
      "comment": {
        "fragment_size": 150,
        "number_of_fragments": 3,
        "highlight_query": {
          "bool": {
            "must": {
              "match": {
                "comment": {
                  "query": "foo bar"
                }
              }
            },
            "should": {
              "match_phrase": {
                "comment": {
                  "query": "foo bar",
                  "slop": 1,
                  "boost": 10.0
                }
              }
            },
            "minimum_should_match": 0
          }
        }
      }
    }
  }
}

Copy as curl Try in Elastic

设置高亮器类型

编辑

type 字段允许强制使用特定的高亮器类型。允许的值为：unified、plain 和 fvh。以下是一个强制使用纯文本高亮器的示例

resp = client.search(
    query={
        "match": {
            "user.id": "kimchy"
        }
    },
    highlight={
        "fields": {
            "comment": {
                "type": "plain"
            }
        }
    },
)
print(resp)

response = client.search(
  body: {
    query: {
      match: {
        'user.id' => 'kimchy'
      }
    },
    highlight: {
      fields: {
        comment: {
          type: 'plain'
        }
      }
    }
  }
)
puts response

const response = await client.search({
  query: {
    match: {
      "user.id": "kimchy",
    },
  },
  highlight: {
    fields: {
      comment: {
        type: "plain",
      },
    },
  },
});
console.log(response);

GET /_search
{
  "query": {
    "match": { "user.id": "kimchy" }
  },
  "highlight": {
    "fields": {
      "comment": { "type": "plain" }
    }
  }
}

Copy as curl Try in Elastic

配置高亮显示标签

编辑

默认情况下，高亮显示会将高亮显示的文本包裹在  和  中。可以通过设置 pre_tags 和 post_tags 来控制，例如

resp = client.search(
    query={
        "match": {
            "user.id": "kimchy"
        }
    },
    highlight={
        "pre_tags": [
            "<tag1>"
        ],
        "post_tags": [
            "</tag1>"
        ],
        "fields": {
            "body": {}
        }
    },
)
print(resp)

response = client.search(
  body: {
    query: {
      match: {
        'user.id' => 'kimchy'
      }
    },
    highlight: {
      pre_tags: [
        '<tag1>'
      ],
      post_tags: [
        '</tag1>'
      ],
      fields: {
        body: {}
      }
    }
  }
)
puts response

const response = await client.search({
  query: {
    match: {
      "user.id": "kimchy",
    },
  },
  highlight: {
    pre_tags: ["<tag1>"],
    post_tags: ["</tag1>"],
    fields: {
      body: {},
    },
  },
});
console.log(response);

GET /_search
{
  "query" : {
    "match": { "user.id": "kimchy" }
  },
  "highlight" : {
    "pre_tags" : ["<tag1>"],
    "post_tags" : ["</tag1>"],
    "fields" : {
      "body" : {}
    }
  }
}

Copy as curl Try in Elastic

当使用快速向量高亮器时，您可以指定其他标签，并且“重要性”是有序的。

resp = client.search(
    query={
        "match": {
            "user.id": "kimchy"
        }
    },
    highlight={
        "pre_tags": [
            "<tag1>",
            "<tag2>"
        ],
        "post_tags": [
            "</tag1>",
            "</tag2>"
        ],
        "fields": {
            "body": {}
        }
    },
)
print(resp)

response = client.search(
  body: {
    query: {
      match: {
        'user.id' => 'kimchy'
      }
    },
    highlight: {
      pre_tags: [
        '<tag1>',
        '<tag2>'
      ],
      post_tags: [
        '</tag1>',
        '</tag2>'
      ],
      fields: {
        body: {}
      }
    }
  }
)
puts response

const response = await client.search({
  query: {
    match: {
      "user.id": "kimchy",
    },
  },
  highlight: {
    pre_tags: ["<tag1>", "<tag2>"],
    post_tags: ["</tag1>", "</tag2>"],
    fields: {
      body: {},
    },
  },
});
console.log(response);

GET /_search
{
  "query" : {
    "match": { "user.id": "kimchy" }
  },
  "highlight" : {
    "pre_tags" : ["<tag1>", "<tag2>"],
    "post_tags" : ["</tag1>", "</tag2>"],
    "fields" : {
      "body" : {}
    }
  }
}

Copy as curl Try in Elastic

您还可以使用内置的 styled 标签模式

resp = client.search(
    query={
        "match": {
            "user.id": "kimchy"
        }
    },
    highlight={
        "tags_schema": "styled",
        "fields": {
            "comment": {}
        }
    },
)
print(resp)

response = client.search(
  body: {
    query: {
      match: {
        'user.id' => 'kimchy'
      }
    },
    highlight: {
      tags_schema: 'styled',
      fields: {
        comment: {}
      }
    }
  }
)
puts response

const response = await client.search({
  query: {
    match: {
      "user.id": "kimchy",
    },
  },
  highlight: {
    tags_schema: "styled",
    fields: {
      comment: {},
    },
  },
});
console.log(response);

GET /_search
{
  "query" : {
    "match": { "user.id": "kimchy" }
  },
  "highlight" : {
    "tags_schema" : "styled",
    "fields" : {
      "comment" : {}
    }
  }
}

Copy as curl Try in Elastic

高亮显示所有字段

编辑

默认情况下，只会高亮显示包含查询匹配项的字段。将 require_field_match 设置为 false 可高亮显示所有字段。

resp = client.search(
    query={
        "match": {
            "user.id": "kimchy"
        }
    },
    highlight={
        "require_field_match": False,
        "fields": {
            "body": {
                "pre_tags": [
                    "<em>"
                ],
                "post_tags": [
                    "</em>"
                ]
            }
        }
    },
)
print(resp)

response = client.search(
  body: {
    query: {
      match: {
        'user.id' => 'kimchy'
      }
    },
    highlight: {
      require_field_match: false,
      fields: {
        body: {
          pre_tags: [
            '<em>'
          ],
          post_tags: [
            '</em>'
          ]
        }
      }
    }
  }
)
puts response

const response = await client.search({
  query: {
    match: {
      "user.id": "kimchy",
    },
  },
  highlight: {
    require_field_match: false,
    fields: {
      body: {
        pre_tags: ["<em>"],
        post_tags: ["</em>"],
      },
    },
  },
});
console.log(response);

GET /_search
{
  "query" : {
    "match": { "user.id": "kimchy" }
  },
  "highlight" : {
    "require_field_match": false,
    "fields": {
      "body" : { "pre_tags" : ["<em>"], "post_tags" : ["</em>"] }
    }
  }
}

Copy as curl Try in Elastic

合并多个字段的匹配项

编辑

unified 和 fvh 高亮器支持此功能。

统一高亮器和快速向量高亮器可以合并多个字段的匹配项以高亮显示单个字段。这对于以不同方式分析相同字符串的多字段最为直观。

在以下示例中，comment 由 standard 分析器分析，而 comment.english 由 english 分析器分析。

resp = client.indices.create(
    index="index1",
    mappings={
        "properties": {
            "comment": {
                "type": "text",
                "analyzer": "standard",
                "fields": {
                    "english": {
                        "type": "text",
                        "analyzer": "english"
                    }
                }
            }
        }
    },
)
print(resp)

const response = await client.indices.create({
  index: "index1",
  mappings: {
    properties: {
      comment: {
        type: "text",
        analyzer: "standard",
        fields: {
          english: {
            type: "text",
            analyzer: "english",
          },
        },
      },
    },
  },
});
console.log(response);

PUT index1
{
  "mappings": {
    "properties": {
      "comment": {
        "type": "text",
        "analyzer": "standard",
        "fields": {
          "english": {
            "type": "text",
            "analyzer": "english"
          }
        }
      }
    }
  }
}

Copy as curl Try in Elastic

resp = client.bulk(
    index="index1",
    refresh=True,
    operations=[
        {
            "index": {
                "_id": "doc1"
            }
        },
        {
            "comment": "run with scissors"
        },
        {
            "index": {
                "_id": "doc2"
            }
        },
        {
            "comment": "running with scissors"
        }
    ],
)
print(resp)

const response = await client.bulk({
  index: "index1",
  refresh: "true",
  operations: [
    {
      index: {
        _id: "doc1",
      },
    },
    {
      comment: "run with scissors",
    },
    {
      index: {
        _id: "doc2",
      },
    },
    {
      comment: "running with scissors",
    },
  ],
});
console.log(response);

PUT index1/_bulk?refresh=true
{"index": {"_id": "doc1" }}
{"comment": "run with scissors"}
{ "index" : {"_id": "doc2"} }
{"comment": "running with scissors"}

Copy as curl Try in Elastic

resp = client.search(
    index="index1",
    query={
        "query_string": {
            "query": "running with scissors",
            "fields": [
                "comment",
                "comment.english"
            ]
        }
    },
    highlight={
        "order": "score",
        "fields": {
            "comment": {}
        }
    },
)
print(resp)

const response = await client.search({
  index: "index1",
  query: {
    query_string: {
      query: "running with scissors",
      fields: ["comment", "comment.english"],
    },
  },
  highlight: {
    order: "score",
    fields: {
      comment: {},
    },
  },
});
console.log(response);

GET index1/_search
{
  "query": {
    "query_string": {
      "query": "running with scissors",
      "fields": ["comment", "comment.english"]
    }
  },
  "highlight": {
    "order": "score",
    "fields": {
      "comment": {}
    }
  }
}

Copy as curl Try in Elastic

上面的请求同时匹配“run with scissors”和“running with scissors”，并且会高亮显示“running”和“scissors”，但不会高亮显示“run”。如果两个短语都出现在大型文档中，那么“running with scissors”在片段列表中会排在“run with scissors”之上，因为该片段中有更多的匹配项。

{
  ...
  "hits" : {
    "total" : {
      "value" : 2,
      "relation" : "eq"
    },
    "max_score": 1.0577903,
    "hits" : [
      {
        "_index" : "index1",
        "_id" : "doc2",
        "_score" : 1.0577903,
        "_source" : {
          "comment" : "running with scissors"
        },
        "highlight" : {
          "comment" : [
            "<em>running</em> <em>with</em> <em>scissors</em>"
          ]
        }
      },
      {
        "_index" : "index1",
        "_id" : "doc1",
        "_score" : 0.36464313,
        "_source" : {
          "comment" : "run with scissors"
        },
        "highlight" : {
          "comment" : [
            "run <em>with</em> <em>scissors</em>"
          ]
        }
      }
    ]
  }
}

以下请求同时高亮显示“run”以及“running”和“scissors”，因为 matched_fields 参数指示，对于高亮显示，我们需要将来自 comment.english 字段的匹配项与来自原始 comment 字段的匹配项合并。

resp = client.search(
    index="index1",
    query={
        "query_string": {
            "query": "running with scissors",
            "fields": [
                "comment",
                "comment.english"
            ]
        }
    },
    highlight={
        "order": "score",
        "fields": {
            "comment": {
                "matched_fields": [
                    "comment.english"
                ]
            }
        }
    },
)
print(resp)

const response = await client.search({
  index: "index1",
  query: {
    query_string: {
      query: "running with scissors",
      fields: ["comment", "comment.english"],
    },
  },
  highlight: {
    order: "score",
    fields: {
      comment: {
        matched_fields: ["comment.english"],
      },
    },
  },
});
console.log(response);

GET index1/_search
{
  "query": {
    "query_string": {
      "query": "running with scissors",
      "fields": ["comment", "comment.english"]
    }
  },
  "highlight": {
    "order": "score",
    "fields": {
      "comment": {
        "matched_fields": ["comment.english"]
      }
    }
  }
}

Copy as curl Try in Elastic

{
  ...
  "hits" : {
    "total" : {
      "value" : 2,
      "relation" : "eq"
    },
    "max_score": 1.0577903,
    "hits" : [
      {
        "_index" : "index1",
        "_id" : "doc2",
        "_score" : 1.0577903,
        "_source" : {
          "comment" : "running with scissors"
        },
        "highlight" : {
          "comment" : [
            "<em>running</em> <em>with</em> <em>scissors</em>"
          ]
        }
      },
      {
        "_index" : "index1",
        "_id" : "doc1",
        "_score" : 0.36464313,
        "_source" : {
          "comment" : "run with scissors"
        },
        "highlight" : {
          "comment" : [
            "<em>run</em> <em>with</em> <em>scissors</em>"
          ]
        }
      }
    ]
  }
}

在以下示例中，comment 由 standard 分析器分析，而 comment.english 由 english 分析器分析。

resp = client.indices.create(
    index="index2",
    mappings={
        "properties": {
            "comment": {
                "type": "text",
                "analyzer": "standard",
                "term_vector": "with_positions_offsets",
                "fields": {
                    "english": {
                        "type": "text",
                        "analyzer": "english",
                        "term_vector": "with_positions_offsets"
                    }
                }
            }
        }
    },
)
print(resp)

const response = await client.indices.create({
  index: "index2",
  mappings: {
    properties: {
      comment: {
        type: "text",
        analyzer: "standard",
        term_vector: "with_positions_offsets",
        fields: {
          english: {
            type: "text",
            analyzer: "english",
            term_vector: "with_positions_offsets",
          },
        },
      },
    },
  },
});
console.log(response);

PUT index2
{
  "mappings": {
    "properties": {
      "comment": {
        "type": "text",
        "analyzer": "standard",
        "term_vector": "with_positions_offsets",
        "fields": {
          "english": {
            "type": "text",
            "analyzer": "english",
            "term_vector": "with_positions_offsets"
          }
        }
      }
    }
  }
}

Copy as curl Try in Elastic

resp = client.bulk(
    index="index2",
    refresh=True,
    operations=[
        {
            "index": {
                "_id": "doc1"
            }
        },
        {
            "comment": "run with scissors"
        },
        {
            "index": {
                "_id": "doc2"
            }
        },
        {
            "comment": "running with scissors"
        }
    ],
)
print(resp)

const response = await client.bulk({
  index: "index2",
  refresh: "true",
  operations: [
    {
      index: {
        _id: "doc1",
      },
    },
    {
      comment: "run with scissors",
    },
    {
      index: {
        _id: "doc2",
      },
    },
    {
      comment: "running with scissors",
    },
  ],
});
console.log(response);

PUT index2/_bulk?refresh=true
{"index": {"_id": "doc1" }}
{"comment": "run with scissors"}
{ "index" : {"_id": "doc2"} }
{"comment": "running with scissors"}

Copy as curl Try in Elastic

resp = client.search(
    index="index2",
    query={
        "query_string": {
            "query": "running with scissors",
            "fields": [
                "comment",
                "comment.english"
            ]
        }
    },
    highlight={
        "order": "score",
        "fields": {
            "comment": {
                "type": "fvh"
            }
        }
    },
)
print(resp)

const response = await client.search({
  index: "index2",
  query: {
    query_string: {
      query: "running with scissors",
      fields: ["comment", "comment.english"],
    },
  },
  highlight: {
    order: "score",
    fields: {
      comment: {
        type: "fvh",
      },
    },
  },
});
console.log(response);

GET index2/_search
{
  "query": {
    "query_string": {
      "query": "running with scissors",
      "fields": ["comment", "comment.english"]
    }
  },
  "highlight": {
    "order": "score",
    "fields": {
      "comment": {
        "type" : "fvh"
      }
    }
  }
}

Copy as curl Try in Elastic

{
  ...
  "hits" : {
    "total" : {
      "value" : 2,
      "relation" : "eq"
    },
    "max_score": 1.0577903,
    "hits" : [
      {
        "_index" : "index2",
        "_id" : "doc2",
        "_score" : 1.0577903,
        "_source" : {
          "comment" : "running with scissors"
        },
        "highlight" : {
          "comment" : [
            "<em>running</em> <em>with</em> <em>scissors</em>"
          ]
        }
      },
      {
        "_index" : "index2",
        "_id" : "doc1",
        "_score" : 0.36464313,
        "_source" : {
          "comment" : "run with scissors"
        },
        "highlight" : {
          "comment" : [
            "run <em>with</em> <em>scissors</em>"
          ]
        }
      }
    ]
  }
}

以下请求同时高亮显示“run”以及“running”和“scissors”，因为 matched_fields 参数指示，对于高亮显示，我们需要合并来自 comment 和 comment.english 字段的匹配项。

resp = client.search(
    index="index2",
    query={
        "query_string": {
            "query": "running with scissors",
            "fields": [
                "comment",
                "comment.english"
            ]
        }
    },
    highlight={
        "order": "score",
        "fields": {
            "comment": {
                "type": "fvh",
                "matched_fields": [
                    "comment",
                    "comment.english"
                ]
            }
        }
    },
)
print(resp)

const response = await client.search({
  index: "index2",
  query: {
    query_string: {
      query: "running with scissors",
      fields: ["comment", "comment.english"],
    },
  },
  highlight: {
    order: "score",
    fields: {
      comment: {
        type: "fvh",
        matched_fields: ["comment", "comment.english"],
      },
    },
  },
});
console.log(response);

GET index2/_search
{
  "query": {
    "query_string": {
      "query": "running with scissors",
      "fields": ["comment", "comment.english"]
    }
  },
  "highlight": {
    "order": "score",
    "fields": {
      "comment": {
        "type" : "fvh",
        "matched_fields": ["comment", "comment.english"]
      }
    }
  }
}

Copy as curl Try in Elastic

{
  ...
  "hits" : {
    "total" : {
      "value" : 2,
      "relation" : "eq"
    },
    "max_score": 1.0577903,
    "hits" : [
      {
        "_index" : "index2",
        "_id" : "doc2",
        "_score" : 1.0577903,
        "_source" : {
          "comment" : "running with scissors"
        },
        "highlight" : {
          "comment" : [
            "<em>running</em> <em>with</em> <em>scissors</em>"
          ]
        }
      },
      {
        "_index" : "index2",
        "_id" : "doc1",
        "_score" : 0.36464313,
        "_source" : {
          "comment" : "run with scissors"
        },
        "highlight" : {
          "comment" : [
            "<em>run</em> <em>with</em> <em>scissors</em>"
          ]
        }
      }
    ]
  }
}

以下请求不会高亮显示“run”或“scissor”，但表明，不列出组合匹配项的字段 (comment.english) 在匹配字段中是可以的。

resp = client.search(
    index="index2",
    query={
        "query_string": {
            "query": "running with scissors",
            "fields": [
                "comment",
                "comment.english"
            ]
        }
    },
    highlight={
        "order": "score",
        "fields": {
            "comment.english": {
                "type": "fvh",
                "matched_fields": [
                    "comment"
                ]
            }
        }
    },
)
print(resp)

const response = await client.search({
  index: "index2",
  query: {
    query_string: {
      query: "running with scissors",
      fields: ["comment", "comment.english"],
    },
  },
  highlight: {
    order: "score",
    fields: {
      "comment.english": {
        type: "fvh",
        matched_fields: ["comment"],
      },
    },
  },
});
console.log(response);

GET index2/_search
{
  "query": {
    "query_string": {
      "query": "running with scissors",
      "fields": ["comment", "comment.english"]
    }
  },
  "highlight": {
    "order": "score",
    "fields": {
      "comment.english": {
        "type" : "fvh",
        "matched_fields": ["comment"]
      }
    }
  }
}

Copy as curl Try in Elastic

{
  ...
  "hits" : {
    "total" : {
      "value" : 2,
      "relation" : "eq"
    },
    "max_score": 1.0577903,
    "hits" : [
      {
        "_index" : "index2",
        "_id" : "doc2",
        "_score" : 1.0577903,
        "_source" : {
          "comment" : "running with scissors"
        },
        "highlight" : {
          "comment.english" : [
            "<em>running</em> <em>with</em> <em>scissors</em>"
          ]
        }
      },
      {
        "_index" : "index2",
        "_id" : "doc1",
        "_score" : 0.36464313,
        "_source" : {
          "comment" : "run with scissors"
        },
        "highlight" : {
          "comment.english" : [
            "run <em>with</em> <em>scissors</em>"
          ]
        }
      }
    ]
  }
}

将 matched_fields 设置为非空数组会涉及少量开销，因此请始终优先选择

    "highlight": {
        "fields": {
            "comment": {}
        }
    }

到

    "highlight": {
        "fields": {
            "comment": {
                "matched_fields": ["comment"],
                "type" : "fvh"
            }
        }
    }

从技术上讲，也可以将与组合匹配项的字段不共享相同底层字符串的字段添加到 matched_fields 中。结果可能没有多大意义，如果其中一个匹配项超出文本末尾，则整个查询将失败。

显式排序高亮显示的字段

编辑

Elasticsearch 按照发送的顺序高亮显示字段，但根据 JSON 规范，对象是无序的。如果您需要显式指定高亮显示字段的顺序，请将 fields 指定为数组

resp = client.search(
    highlight={
        "fields": [
            {
                "title": {}
            },
            {
                "text": {}
            }
        ]
    },
)
print(resp)

response = client.search(
  body: {
    highlight: {
      fields: [
        {
          title: {}
        },
        {
          text: {}
        }
      ]
    }
  }
)
puts response

const response = await client.search({
  highlight: {
    fields: [
      {
        title: {},
      },
      {
        text: {},
      },
    ],
  },
});
console.log(response);

GET /_search
{
  "highlight": {
    "fields": [
      { "title": {} },
      { "text": {} }
    ]
  }
}

Copy as curl Try in Elastic

Elasticsearch 中内置的任何高亮器都不关心高亮显示字段的顺序，但插件可能会关心。

控制高亮显示的片段

编辑

每个高亮显示的字段都可以控制高亮显示片段的大小（以字符为单位，默认为 100），以及要返回的最大片段数（默认为 5）。例如

resp = client.search(
    query={
        "match": {
            "user.id": "kimchy"
        }
    },
    highlight={
        "fields": {
            "comment": {
                "fragment_size": 150,
                "number_of_fragments": 3
            }
        }
    },
)
print(resp)

response = client.search(
  body: {
    query: {
      match: {
        'user.id' => 'kimchy'
      }
    },
    highlight: {
      fields: {
        comment: {
          fragment_size: 150,
          number_of_fragments: 3
        }
      }
    }
  }
)
puts response

const response = await client.search({
  query: {
    match: {
      "user.id": "kimchy",
    },
  },
  highlight: {
    fields: {
      comment: {
        fragment_size: 150,
        number_of_fragments: 3,
      },
    },
  },
});
console.log(response);

GET /_search
{
  "query" : {
    "match": { "user.id": "kimchy" }
  },
  "highlight" : {
    "fields" : {
      "comment" : {"fragment_size" : 150, "number_of_fragments" : 3}
    }
  }
}

Copy as curl Try in Elastic

除此之外，还可以指定需要按分数对高亮显示的片段进行排序

resp = client.search(
    query={
        "match": {
            "user.id": "kimchy"
        }
    },
    highlight={
        "order": "score",
        "fields": {
            "comment": {
                "fragment_size": 150,
                "number_of_fragments": 3
            }
        }
    },
)
print(resp)

response = client.search(
  body: {
    query: {
      match: {
        'user.id' => 'kimchy'
      }
    },
    highlight: {
      order: 'score',
      fields: {
        comment: {
          fragment_size: 150,
          number_of_fragments: 3
        }
      }
    }
  }
)
puts response

const response = await client.search({
  query: {
    match: {
      "user.id": "kimchy",
    },
  },
  highlight: {
    order: "score",
    fields: {
      comment: {
        fragment_size: 150,
        number_of_fragments: 3,
      },
    },
  },
});
console.log(response);

GET /_search
{
  "query" : {
    "match": { "user.id": "kimchy" }
  },
  "highlight" : {
    "order" : "score",
    "fields" : {
      "comment" : {"fragment_size" : 150, "number_of_fragments" : 3}
    }
  }
}

Copy as curl Try in Elastic

如果将 number_of_fragments 值设置为 0，则不会生成任何片段，而是返回整个字段内容，当然它是高亮显示的。如果需要高亮显示短文本（如文档标题或地址），但不需要分段，则此功能非常方便。请注意，在这种情况下，fragment_size 将被忽略。

resp = client.search(
    query={
        "match": {
            "user.id": "kimchy"
        }
    },
    highlight={
        "fields": {
            "body": {},
            "blog.title": {
                "number_of_fragments": 0
            }
        }
    },
)
print(resp)

response = client.search(
  body: {
    query: {
      match: {
        'user.id' => 'kimchy'
      }
    },
    highlight: {
      fields: {
        body: {},
        'blog.title' => {
          number_of_fragments: 0
        }
      }
    }
  }
)
puts response

const response = await client.search({
  query: {
    match: {
      "user.id": "kimchy",
    },
  },
  highlight: {
    fields: {
      body: {},
      "blog.title": {
        number_of_fragments: 0,
      },
    },
  },
});
console.log(response);

GET /_search
{
  "query" : {
    "match": { "user.id": "kimchy" }
  },
  "highlight" : {
    "fields" : {
      "body" : {},
      "blog.title" : {"number_of_fragments" : 0}
    }
  }
}

Copy as curl Try in Elastic

当使用 fvh 时，可以使用 fragment_offset 参数来控制高亮显示的起始边距。

如果不存在匹配的片段进行高亮显示，默认情况下不会返回任何内容。相反，我们可以通过设置 no_match_size（默认为 0）为想要返回的文本长度，从字段开头返回一段文本。实际长度可能比指定的长度短或长，因为它会尝试在单词边界处断开。

resp = client.search(
    query={
        "match": {
            "user.id": "kimchy"
        }
    },
    highlight={
        "fields": {
            "comment": {
                "fragment_size": 150,
                "number_of_fragments": 3,
                "no_match_size": 150
            }
        }
    },
)
print(resp)

response = client.search(
  body: {
    query: {
      match: {
        'user.id' => 'kimchy'
      }
    },
    highlight: {
      fields: {
        comment: {
          fragment_size: 150,
          number_of_fragments: 3,
          no_match_size: 150
        }
      }
    }
  }
)
puts response

const response = await client.search({
  query: {
    match: {
      "user.id": "kimchy",
    },
  },
  highlight: {
    fields: {
      comment: {
        fragment_size: 150,
        number_of_fragments: 3,
        no_match_size: 150,
      },
    },
  },
});
console.log(response);

GET /_search
{
  "query": {
    "match": { "user.id": "kimchy" }
  },
  "highlight": {
    "fields": {
      "comment": {
        "fragment_size": 150,
        "number_of_fragments": 3,
        "no_match_size": 150
      }
    }
  }
}

Copy as curl Try in Elastic

使用倒排列表进行高亮显示

编辑

以下示例展示了如何在索引映射中设置 comment 字段，以便使用倒排列表进行高亮显示

resp = client.indices.create(
    index="example",
    mappings={
        "properties": {
            "comment": {
                "type": "text",
                "index_options": "offsets"
            }
        }
    },
)
print(resp)

response = client.indices.create(
  index: 'example',
  body: {
    mappings: {
      properties: {
        comment: {
          type: 'text',
          index_options: 'offsets'
        }
      }
    }
  }
)
puts response

const response = await client.indices.create({
  index: "example",
  mappings: {
    properties: {
      comment: {
        type: "text",
        index_options: "offsets",
      },
    },
  },
});
console.log(response);

PUT /example
{
  "mappings": {
    "properties": {
      "comment" : {
        "type": "text",
        "index_options" : "offsets"
      }
    }
  }
}

Copy as curl Try in Elastic

以下示例展示了如何设置 comment 字段，以便使用 term_vectors 进行高亮显示（这将导致索引更大）

resp = client.indices.create(
    index="example",
    mappings={
        "properties": {
            "comment": {
                "type": "text",
                "term_vector": "with_positions_offsets"
            }
        }
    },
)
print(resp)

response = client.indices.create(
  index: 'example',
  body: {
    mappings: {
      properties: {
        comment: {
          type: 'text',
          term_vector: 'with_positions_offsets'
        }
      }
    }
  }
)
puts response

const response = await client.indices.create({
  index: "example",
  mappings: {
    properties: {
      comment: {
        type: "text",
        term_vector: "with_positions_offsets",
      },
    },
  },
});
console.log(response);

PUT /example
{
  "mappings": {
    "properties": {
      "comment" : {
        "type": "text",
        "term_vector" : "with_positions_offsets"
      }
    }
  }
}

Copy as curl Try in Elastic

为 plain 高亮器指定分段器

编辑

当使用 plain 高亮器时，您可以在 simple 和 span 分段器之间选择

resp = client.search(
    index="my-index-000001",
    query={
        "match_phrase": {
            "message": "number 1"
        }
    },
    highlight={
        "fields": {
            "message": {
                "type": "plain",
                "fragment_size": 15,
                "number_of_fragments": 3,
                "fragmenter": "simple"
            }
        }
    },
)
print(resp)

response = client.search(
  index: 'my-index-000001',
  body: {
    query: {
      match_phrase: {
        message: 'number 1'
      }
    },
    highlight: {
      fields: {
        message: {
          type: 'plain',
          fragment_size: 15,
          number_of_fragments: 3,
          fragmenter: 'simple'
        }
      }
    }
  }
)
puts response

const response = await client.search({
  index: "my-index-000001",
  query: {
    match_phrase: {
      message: "number 1",
    },
  },
  highlight: {
    fields: {
      message: {
        type: "plain",
        fragment_size: 15,
        number_of_fragments: 3,
        fragmenter: "simple",
      },
    },
  },
});
console.log(response);

GET my-index-000001/_search
{
  "query": {
    "match_phrase": { "message": "number 1" }
  },
  "highlight": {
    "fields": {
      "message": {
        "type": "plain",
        "fragment_size": 15,
        "number_of_fragments": 3,
        "fragmenter": "simple"
      }
    }
  }
}

Copy as curl Try in Elastic

响应

{
  ...
  "hits": {
    "total": {
      "value": 1,
      "relation": "eq"
    },
    "max_score": 1.6011951,
    "hits": [
      {
        "_index": "my-index-000001",
        "_id": "1",
        "_score": 1.6011951,
        "_source": {
          "message": "some message with the number 1",
          "context": "bar"
        },
        "highlight": {
          "message": [
            " with the <em>number</em>",
            " <em>1</em>"
          ]
        }
      }
    ]
  }
}

resp = client.search(
    index="my-index-000001",
    query={
        "match_phrase": {
            "message": "number 1"
        }
    },
    highlight={
        "fields": {
            "message": {
                "type": "plain",
                "fragment_size": 15,
                "number_of_fragments": 3,
                "fragmenter": "span"
            }
        }
    },
)
print(resp)

response = client.search(
  index: 'my-index-000001',
  body: {
    query: {
      match_phrase: {
        message: 'number 1'
      }
    },
    highlight: {
      fields: {
        message: {
          type: 'plain',
          fragment_size: 15,
          number_of_fragments: 3,
          fragmenter: 'span'
        }
      }
    }
  }
)
puts response

const response = await client.search({
  index: "my-index-000001",
  query: {
    match_phrase: {
      message: "number 1",
    },
  },
  highlight: {
    fields: {
      message: {
        type: "plain",
        fragment_size: 15,
        number_of_fragments: 3,
        fragmenter: "span",
      },
    },
  },
});
console.log(response);

GET my-index-000001/_search
{
  "query": {
    "match_phrase": { "message": "number 1" }
  },
  "highlight": {
    "fields": {
      "message": {
        "type": "plain",
        "fragment_size": 15,
        "number_of_fragments": 3,
        "fragmenter": "span"
      }
    }
  }
}

Copy as curl Try in Elastic

响应

{
  ...
  "hits": {
    "total": {
      "value": 1,
      "relation": "eq"
    },
    "max_score": 1.6011951,
    "hits": [
      {
        "_index": "my-index-000001",
        "_id": "1",
        "_score": 1.6011951,
        "_source": {
          "message": "some message with the number 1",
          "context": "bar"
        },
        "highlight": {
          "message": [
            " with the <em>number</em> <em>1</em>"
          ]
        }
      }
    ]
  }
}

如果将 number_of_fragments 选项设置为 0，则会使用 NullFragmenter，它不会对文本进行分段。这对于高亮显示文档或字段的全部内容非常有用。

高亮器内部工作原理

编辑

给定一个查询和一个文本（文档字段的内容），高亮器的目标是找到查询的最佳文本片段，并在找到的片段中高亮显示查询词。为此，高亮器需要解决几个问题

如何将文本分成片段？
如何在所有片段中找到最佳片段？
如何在片段中高亮显示查询词？

如何将文本分成片段？

编辑

相关设置：fragment_size, fragmenter, 高亮器的 type, boundary_chars, boundary_max_scan, boundary_scanner, boundary_scanner_locale。

Plain 高亮器首先使用给定的分析器分析文本，并从中创建一个令牌流。Plain 高亮器使用非常简单的算法将令牌流分成片段。它循环遍历令牌流中的术语，并且每次当前术语的 end_offset 超过 fragment_size 乘以已创建的片段数时，都会创建一个新的片段。使用 span 分段器会进行更多计算，以避免在高亮显示的术语之间断开文本。但是总的来说，由于分割仅由 fragment_size 完成，因此某些片段可能会很奇怪，例如，以标点符号开头。

Unified 或 FVH 高亮器通过利用 Java 的 BreakIterator 来更好地将文本分成片段。这确保了只要 fragment_size 允许，片段就是一个有效的句子。

如何找到最佳片段？

编辑

如何在片段中高亮显示查询词？

编辑

相关设置：pre-tags, post-tags。

目标是仅高亮显示那些参与生成文档命中的术语。对于某些复杂的布尔查询，这仍在进行中，因为高亮器不反映查询的布尔逻辑，而仅提取叶子（术语、短语、前缀等）查询。

Plain 高亮器给定令牌流和原始文本，重新构造原始文本，仅高亮显示来自令牌流中包含在先前步骤中的底层匹配信息结构中的术语。

FVH 和 unified 高亮器使用中间数据结构以某种原始形式表示片段，然后用实际文本填充它们。

高亮器使用 pre-tags, post-tags 来编码高亮显示的术语。

Unified 高亮器工作示例

编辑

让我们更详细地了解 unified 高亮器的工作原理。

首先，我们创建一个包含文本字段 content 的索引，该字段将使用 english 分析器进行索引，并且将在不带偏移量或词向量的情况下进行索引。

PUT test_index
{
  "mappings": {
    "properties": {
      "content": {
        "type": "text",
        "analyzer": "english"
      }
    }
  }
}

我们将以下文档放入索引中

PUT test_index/_doc/doc1
{
  "content" : "For you I'm only a fox like a hundred thousand other foxes. But if you tame me, we'll need each other. You'll be the only boy in the world for me. I'll be the only fox in the world for you."
}

我们运行以下带有高亮显示请求的查询

GET test_index/_search
{
  "query": {
    "match_phrase" : {"content" : "only fox"}
  },
  "highlight": {
    "type" : "unified",
    "number_of_fragments" : 3,
    "fields": {
      "content": {}
    }
  }
}

在找到 doc1 作为此查询的命中项后，此命中项将被传递给 unified 高亮器，以高亮显示文档的 content 字段。由于 content 字段未通过偏移量或词向量进行索引，因此将分析其原始字段值，并从与查询匹配的术语中构建内存索引

{"token":"onli","start_offset":12,"end_offset":16,"position":3},
{"token":"fox","start_offset":19,"end_offset":22,"position":5},
{"token":"fox","start_offset":53,"end_offset":58,"position":11},
{"token":"onli","start_offset":117,"end_offset":121,"position":24},
{"token":"onli","start_offset":159,"end_offset":163,"position":34},
{"token":"fox","start_offset":164,"end_offset":167,"position":35}

我们复杂的短语查询将转换为跨度查询：spanNear([text:onli, text:fox], 0, true)，这意味着我们正在查找彼此之间距离为 0 且按给定顺序排列的术语 "onli" 和 "fox"。跨度查询将针对之前创建的内存索引运行，以找到以下匹配项

{"term":"onli", "start_offset":159, "end_offset":163},
{"term":"fox", "start_offset":164, "end_offset":167}

在我们的示例中，我们获得了一个匹配项，但可能存在多个匹配项。给定匹配项，unified 高亮器会将字段的文本分成所谓的“段落”。每个段落必须包含至少一个匹配项。unified 高亮器使用 Java 的 BreakIterator 确保每个段落都表示一个完整的句子，只要它不超过 fragment_size。对于我们的示例，我们得到一个段落，其中包含以下属性（此处仅显示属性的子集）

Passage:
    startOffset: 147
    endOffset: 189
    score: 3.7158387
    matchStarts: [159, 164]
    matchEnds: [163, 167]
    numMatches: 2

请注意段落如何具有分数，该分数是使用为段落改编的 BM25 评分公式计算的。如果有更多可用段落而不是用户请求的 number_of_fragments，则分数使我们可以选择得分最高的段落。如果用户请求，分数还允许我们按 order: "score" 对段落进行排序。

作为最后一步，unified 高亮器将从字段的文本中提取与每个段落对应的字符串

"I'll be the only fox in the world for you."

并将使用段落的 matchStarts 和 matchEnds 信息，使用标签 和 格式化此字符串中的所有匹配项

I'll be the <em>only</em> <em>fox</em> in the world for you.

这种格式化的字符串是返回给用户的最终高亮器结果。

« 过滤搜索结果长时间运行的搜索 »

Was this helpful?

Feedback

The Search AI Company

Generative AI

Search

Security

Observability

By solution

Industries

高亮显示

高亮显示

统一高亮器

普通高亮器

快速向量高亮器

偏移量策略

高亮显示设置

高亮显示示例

覆盖全局设置

指定高亮显示查询

设置高亮器类型

配置高亮显示标签

高亮显示所有字段

合并多个字段的匹配项

显式排序高亮显示的字段

控制高亮显示的片段

使用倒排列表进行高亮显示

为 plain 高亮器指定分段器

高亮器内部工作原理

如何将文本分成片段？

如何找到最佳片段？

如何在片段中高亮显示查询词？

Unified 高亮器工作示例

Follow us

About us

Join us

Partners

Trust & Security

Investor relations

Excellence Awards