Elasticsearch 指南其他版本
8.17 中的新功能
Elasticsearch 基础
- 什么是 Elasticsearch?
- 运行 Elasticsearch
- 索引和文档
- 向 Elasticsearch 添加数据
- 搜索和分析数据
- 为生产环境做好准备
快速入门
- 基础：使用 API 进行索引和搜索
- 基础：全文搜索和过滤
- 基础：使用聚合分析电子商务数据
设置 Elasticsearch
- 在本地运行 Elasticsearch
- 安装 Elasticsearch
- 配置 Elasticsearch
- 重要的系统配置
- 引导检查
- X-Pack 的引导检查
- 启动 Elasticsearch
- 停止 Elasticsearch
- 发现和集群形成
- 在集群中添加和删除节点
- 完整集群重启和滚动重启
- 远程集群
- 插件
升级 Elasticsearch
- 已存档设置
- 从较旧的 Elasticsearch 版本读取索引
索引模块
- 分析
- 索引分片分配
- 索引块
- 映射器
- 合并
- 相似度模块
- 慢日志
- 存储
  - 将数据预加载到文件系统缓存中
- 事务日志
- 历史记录保留
- 索引排序
  - 使用索引排序来加速 conjunctions
- 索引压力
映射
- 动态映射
  - 动态字段映射
  - 动态模板
- 显式映射
- 运行时字段
- 字段数据类型
  - 聚合度量
  - 别名
  - 数组
  - 二进制
  - 布尔值
  - 完成
  - 日期
  - 日期纳秒
  - 密集向量
  - 扁平化
  - 地理点
  - 地理形状
  - 直方图
  - IP
  - 连接
  - 关键词
  - 嵌套
  - 数值
  - 对象
  - 传递对象
  - 过滤器
  - 点
  - 范围
  - 排名特征
  - 排名特征
  - 即时搜索
  - 语义文本
  - 形状
  - 稀疏向量
  - 文本
  - 令牌计数
  - 无符号长整型
  - 版本
- 元数据字段
- 映射参数
- 映射限制设置
- 删除映射类型
文本分析
- 概述
- 概念
- 配置文本分析
- 内置分析器参考
  - 指纹
  - 关键词
  - 语言
  - 模式
  - 简单
  - 标准
  - 停止
  - 空格
- 分词器参考
  - 字符组
  - 经典
  - 边缘 N 元
  - 关键词
  - 字母
  - 小写
  - N 元
  - 路径层次结构
  - 模式
  - 简单模式
  - 简单模式分割
  - 标准
  - 泰语
  - UAX URL 电子邮件
  - 空格
- 令牌过滤器参考
  - 省略号
  - ASCII 折叠
  - CJK 双字母
  - CJK 宽度
  - 经典
  - 常用语法
  - 条件
  - 十进制数字
  - 分隔的有效负载
  - 字典复合器
  - 边缘 N 元
  - 省略
  - 指纹
  - 扁平图
  - Hunspell
  - 连字符复合器
  - 保留类型
  - 保留单词
  - 关键字标记
  - 关键字重复
  - KStem
  - 长度
  - 限制令牌计数
  - 小写
  - MinHash
  - 多路复用器
  - N 元
  - 规范化
  - 模式捕获
  - 模式替换
  - 语音
  - Porter 词干
  - 谓词脚本
  - 删除重复项
  - 反转
  - 瓦片
  - 雪球
  - 词干分析器
  - 词干分析器覆盖
  - 停止
  - 同义词
  - 同义词图
  - 修剪
  - 截断
  - 唯一
  - 大写
  - 单词分隔符
  - 单词分隔符图
- 字符过滤器参考
- 规范化器
索引模板
- 模拟多组件模板
- 配置 ignore_missing_component_templates
  - 使用示例
数据流
- 设置数据流
- 使用数据流
- 修改数据流
- 时间序列数据流 (TSDS)
- 日志数据流
- 数据流生命周期
摄取管道
- 示例：解析日志
- 丰富您的数据
- 处理器参考
  - 附加
  - 附件
  - 字节
  - 圆
  - 社区 ID
  - 转换
  - CSV
  - 日期
  - 日期索引名称
  - 剖析
  - 点扩展器
  - 丢弃
  - 丰富
  - 失败
  - 指纹
  - 循环
  - 地理网格
  - GeoIP
  - Grok
  - Gsub
  - HTML 条
  - 推理
  - IP 位置
  - 连接
  - JSON
  - KV
  - 小写
  - 网络方向
  - 管道
  - 编辑
  - 注册域
  - 删除
  - 重命名
  - 重新路由
  - 脚本
  - 设置
  - 设置安全用户
  - 排序
  - 拆分
  - 终止
  - 修剪
  - 大写
  - URL 解码
  - URI 部分
  - 用户代理
- 搜索中的摄取管道
  - 推理处理
  - NLP 教程
别名
搜索您的数据
- 搜索 API
- 搜索相关性优化
- 检索器
  - 检索器示例
- kNN 搜索
- 语义搜索
- 跨集群搜索
- 使用同义词搜索
- 搜索应用程序
- 搜索分析
重新排名
- 语义重新排名
- 学习排名
  - 部署和管理 LTR 模型
  - 使用 LTR 进行搜索
查询 DSL
- 查询和过滤器上下文
- 复合查询
- 全文查询
- 地理位置查询
- 形状查询
  - 形状
- 连接查询
  - 嵌套
  - 有子级
  - 有父级
  - 父级 ID
- 匹配所有
- 跨度查询
- 向量查询
  - Knn
  - 稀疏向量
  - 语义
  - 文本扩展
  - 加权标记
- 专用查询
  - 距离特征
  - 更像这样
  - 渗透
  - 排名特征
  - 脚本
  - 脚本评分
  - 包装器
  - 固定查询
  - 规则
- 词项级查询
  - 存在
  - 模糊
  - ID
  - 前缀
  - 范围
  - 正则表达式
  - 词项
  - 词项集
  - 词项集
  - 通配符
- minimum_should_match 参数
- rewrite 参数
- 正则表达式语法
聚合
- 桶聚合
- 指标聚合
- 管道聚合
地理空间分析
连接器
- 连接器引用
  - Azure Blob 存储
  - Box
  - Confluence
  - Dropbox
  - GitHub
  - Gmail
  - Google Cloud Storage
  - Google Drive
  - GraphQL
  - Jira
  - Microsoft SQL
  - MongoDB
  - MySQL
  - 网络驱动器
  - Notion
  - OneDrive
  - OpenText Documentum
  - Oracle
  - Outlook
  - PostgreSQL
  - Redis
  - S3
  - Salesforce
  - ServiceNow
  - SharePoint Online
  - SharePoint Server
  - Slack
  - Teams
  - Zoom
- 自管理连接器
- Elastic 管理的连接器
  - 管理连接器教程 (MongoDB)
- 构建和自定义连接器
- Kibana 中的连接器 UI
- 连接器 API
  - API 教程
- 内容同步
- 提取和转换
  - 内容提取
  - 同步规则
- 文档级安全性
  - DLS 的工作原理
  - 搜索应用程序中的 DLS
- 管理主题
- 用例
  - 内部知识搜索
- 发行说明
- 已知问题
EQL
- 语法参考
- 函数参考
- 管道参考
- 示例：使用 EQL 检测威胁
ES|QL
- 入门
- ES|QL 参考
- 使用 ES|QL
- 限制
- 示例
SQL
- 概述
- SQL 入门
- 约定和术语
  - 跨 SQL 和 Elasticsearch 的映射概念
- 安全
- SQL REST API
- SQL 转换 API
- SQL CLI
- SQL JDBC
  - API 用法
- SQL ODBC
  - 驱动程序安装
  - 配置
- SQL 客户端应用程序
- SQL 语言
- 函数和运算符
- 保留关键字
- SQL 限制
脚本
- Painless 脚本语言
- 如何编写脚本
- 访问文档中的字段
- 常见脚本用例
  - 字段提取
- 访问文档字段和特殊变量
- 脚本和安全性
- Lucene 表达式语言
- 使用脚本引擎的高级脚本
数据管理
- ILM：管理索引生命周期
- 教程：自定义内置策略
- 教程：自动翻转
- Kibana 中的索引管理
- 概述
- 概念
- 索引生命周期操作
  - 分配
  - 删除
  - 强制合并
  - 迁移
  - 只读
  - 翻转
  - 降采样
  - 可搜索快照
  - 设置优先级
  - 收缩
  - 取消关注
  - 等待快照
- 配置生命周期策略
- 将索引分配过滤器迁移到节点角色
- 解决索引生命周期管理错误
- 启动和停止索引生命周期管理
- 管理现有索引
- 跳过翻转
- 还原托管数据流或索引
- 数据层
自动缩放
- 自动缩放决策器
监视集群
- 概述
- 工作原理
- 在生产环境中监视
- 使用 Elastic Agent 收集监视数据
- 使用 Metricbeat 收集监视数据
- 使用 Filebeat 收集日志数据
- 配置用于监视的数据流/索引
- 旧版收集方法
汇总或转换数据
- 汇总历史数据
- 转换数据
设置高可用性集群
- 弹性设计
  - 小型集群中的弹性
  - 大型集群中的弹性
- 跨集群复制
快照和还原
- 注册存储库
- 创建快照
- 还原快照
- 可搜索快照
保护 Elastic Stack 的安全
- Elasticsearch 安全原则
- 自动启用安全性启动 Elastic Stack
- 手动配置安全性
- 更新节点安全证书
  - 使用相同的 CA
  - 使用不同的 CA
- 用户身份验证
- 用户授权
- 启用审计日志
- 使用 IP 过滤限制连接
- 保护客户端和集成
- 操作员权限
- 故障排除
- 限制
Watcher
- Watcher 入门
- Watcher 的工作原理
- 在 Watcher 中加密敏感数据
- 输入
- 触发器
  - 计划触发器
- 条件
- 操作
- 转换
- 管理监控
- 示例监控
  - 监控 Elasticsearch 集群的状态
- 限制
命令行工具
- elasticsearch-certgen
- elasticsearch-certutil
- elasticsearch-create-enrollment-token
- elasticsearch-croneval
- elasticsearch-keystore
- elasticsearch-node
- elasticsearch-reconfigure-node
- elasticsearch-reset-password
- elasticsearch-saml-metadata
- elasticsearch-service-tokens
- elasticsearch-setup-passwords
- elasticsearch-shard
- elasticsearch-syskeygen
- elasticsearch-users
优化
- 一般建议
- 调整索引速度
- 调整搜索速度
- 调整近似 kNN 搜索
- 调整磁盘使用量
- 调整分片大小
- 将 Elasticsearch 用于时间序列数据
故障排除
- 修复常见的集群问题
  - 水位错误
  - 断路器错误
  - 高 CPU 使用率
  - 高 JVM 内存压力
  - 红色或黄色集群健康状态
  - 拒绝的请求
  - 任务队列积压
  - 映射爆炸
  - 热点
- 诊断未分配的分片
- 向系统中添加丢失的层
- 允许 Elasticsearch 在系统中分配数据
- 允许 Elasticsearch 分配索引
- 索引将索引分配过滤器与数据层节点角色混合，以在数据层之间移动
- 没有足够的节点来分配所有分片副本
- 单个节点上索引的分片总数已超过
- 每个节点的分片总数已达到
- 故障排除损坏
- 修复磁盘空间不足的数据节点
  - 增加数据节点的磁盘容量
  - 减少数据节点的磁盘使用量
- 修复磁盘空间不足的主节点
- 修复磁盘空间不足的其他角色节点
- 启动索引生命周期管理
- 启动快照生命周期管理
- 从快照恢复
- 故障排除损坏的存储库
  - 诊断损坏的存储库
  - 诊断未知存储库
  - 诊断无效存储库
- 解决重复的快照策略失败问题
- 故障排除不稳定的集群
- 故障排除发现
- 故障排除监控
- 故障排除转换
- 故障排除 Watcher
- 故障排除搜索
- 故障排除分片容量健康问题
- 故障排除不平衡的集群
- 捕获诊断信息
REST API
- API 约定
- 通用选项
- REST API 兼容性
- 自动缩放 API
  - 创建或更新自动缩放策略
  - 获取自动缩放容量
  - 删除自动缩放策略
  - 获取自动缩放策略
- 行为分析 API
  - 放置分析集合
  - 删除分析集合
  - 列出分析集合
  - 发布分析集合事件
- 紧凑和对齐文本 (CAT) API
  - cat 别名
  - cat 分配
  - cat 异常检测器
  - cat 组件模板
  - cat 计数
  - cat 数据帧分析
  - cat 数据馈送
  - cat 字段数据
  - cat 健康
  - cat 索引
  - cat 主节点
  - cat 节点属性
  - cat 节点
  - cat 待处理任务
  - cat 插件
  - cat 恢复
  - cat 存储库
  - cat 段
  - cat 分片
  - cat 快照
  - cat 任务管理
  - cat 模板
  - cat 线程池
  - cat 训练模型
  - cat 转换
- 集群 API
  - 集群分配解释
  - 集群获取设置
  - 集群健康
  - 健康
  - 集群重新路由
  - 集群状态
  - 集群统计信息
  - 集群更新设置
  - 节点功能使用情况
  - 节点热线程
  - 节点信息
  - 预验证节点移除
  - 节点重新加载安全设置
  - 节点统计信息
  - 集群信息
  - 待处理的集群任务
  - 远程集群信息
  - 任务管理
  - 投票配置排除项
  - 创建或更新所需节点
  - 获取所需节点
  - 删除所需节点
  - 获取所需平衡
  - 重置所需平衡
- 跨集群复制 API
  - 获取 CCR 统计信息
  - 创建跟随者
  - 暂停跟随者
  - 恢复跟随者
  - 取消关注
  - 忘记跟随者
  - 获取跟随者统计信息
  - 获取跟随者信息
  - 创建自动跟随模式
  - 删除自动跟随模式
  - 获取自动跟随模式
  - 暂停自动跟随模式
  - 恢复自动跟随模式
- 连接器 API
  - 创建连接器
  - 删除连接器
  - 获取连接器
  - 列出连接器
  - 更新连接器 API 密钥 ID
  - 更新连接器配置
  - 更新连接器索引名称
  - 更新连接器功能
  - 更新连接器筛选
  - 更新连接器名称和描述
  - 更新连接器管道
  - 更新连接器调度
  - 更新连接器服务类型
  - 创建连接器同步作业
  - 取消连接器同步作业
  - 删除连接器同步作业
  - 获取连接器同步作业
  - 列出连接器同步作业
  - 检入连接器
  - 更新连接器错误
  - 更新连接器上次同步统计信息
  - 更新连接器状态
  - 检入连接器同步作业
  - 声明连接器同步作业
  - 设置连接器同步作业错误
  - 设置连接器同步作业统计信息
- 数据流 API
  - 创建数据流
  - 删除数据流
  - 获取数据流
  - 迁移到数据流
  - 数据流统计信息
  - 升级数据流
  - 修改数据流
  - 放置数据流生命周期
  - 获取数据流生命周期
  - 删除数据流生命周期
  - 解释数据流生命周期
  - 获取数据流生命周期
  - 降采样
- 文档 API
  - 读取和写入文档
  - 索引
  - 获取
  - 删除
  - 按查询删除
  - 更新
  - 按查询更新
  - 多重获取
  - 批量
  - 重新索引
  - 词条向量
  - 多词条向量
  - ?refresh
  - 乐观并发控制
- 丰富 API
  - 创建丰富策略
  - 删除丰富策略
  - 获取丰富策略
  - 执行丰富策略
  - 丰富统计信息
- EQL API
  - 删除异步 EQL 搜索
  - EQL 搜索
  - 获取异步 EQL 搜索
  - 获取异步 EQL 搜索状态
- ES|QL API
  - ES|QL 查询 API
  - ES|QL 异步查询 API
  - ES|QL 异步查询获取 API
  - ES|QL 异步查询删除 API
- 功能 API
  - 获取功能
  - 重置功能
- Fleet API
  - 获取全局检查点
  - Fleet 搜索
  - Fleet 多重搜索
- 图表探索 API
- 索引 API
  - 别名是否存在
  - 别名
  - 分析
  - 分析索引磁盘使用量
  - 清除缓存
  - 克隆索引
  - 关闭索引
  - 创建索引
  - 创建或更新别名
  - 创建或更新组件模板
  - 创建或更新索引模板
  - 创建或更新索引模板（旧版）
  - 删除组件模板
  - 删除悬挂索引
  - 删除别名
  - 删除索引
  - 删除索引模板
  - 删除索引模板（旧版）
  - 存在
  - 字段使用情况统计信息
  - 刷新
  - 强制合并
  - 获取别名
  - 获取组件模板
  - 获取字段映射
  - 获取索引
  - 获取索引设置
  - 获取索引模板
  - 获取索引模板（旧版）
  - 获取映射
  - 导入悬挂索引
  - 索引恢复
  - 索引段
  - 索引分片存储
  - 索引统计信息
  - 索引模板是否存在（旧版）
  - 列出悬挂索引
  - 打开索引
  - 刷新
  - 解析索引
  - 解析集群
  - 翻转
  - 收缩索引
  - 模拟索引
  - 模拟模板
  - 拆分索引
  - 解冻索引
  - 更新索引设置
  - 更新映射
- 索引生命周期管理 API
  - 创建或更新生命周期策略
  - 获取策略
  - 删除策略
  - 移动到步骤
  - 删除策略
  - 重试策略
  - 获取索引生命周期管理状态
  - 解释生命周期
  - 启动索引生命周期管理
  - 停止索引生命周期管理
  - 将索引、ILM 策略以及旧版、可组合和组件模板迁移到数据层路由
- 推理 API
  - 删除推理 API
  - 获取推理 API
  - 执行推理 API
  - 创建推理 API
  - 流式推理 API
  - 更新推理 API
  - 阿里云 AI 搜索推理服务
  - Amazon Bedrock 推理服务
  - Anthropic 推理服务
  - Azure AI Studio 推理服务
  - Azure OpenAI 推理服务
  - Cohere 推理服务
  - Elasticsearch 推理服务
  - ELSER 推理服务
  - Google AI Studio 推理服务
  - Google Vertex AI 推理服务
  - HuggingFace 推理服务
  - Mistral 推理服务
  - OpenAI 推理服务
  - Watsonx 推理服务
- 信息 API
- 摄取 API
  - 创建或更新管道
  - 获取管道
  - 删除管道
  - 模拟管道
  - 模拟摄取
  - GeoIP 统计
  - 创建或更新 IP 地理位置数据库配置
  - 获取 IP 地理位置数据库配置
  - 删除 IP 地理位置数据库配置
- 许可 API
  - 删除许可证
  - 获取许可证
  - 获取试用状态
  - 开始试用
  - 获取基本状态
  - 开始基本版
  - 更新许可证
- Logstash API
  - 创建或更新 Logstash 管道
  - 删除 Logstash 管道
  - 获取 Logstash 管道
- 机器学习 API
  - 获取机器学习信息
  - 获取机器学习内存统计
  - 设置升级模式
- 机器学习异常检测 API
  - 向日历添加事件
  - 向日历添加作业
  - 关闭作业
  - 创建作业
  - 创建日历
  - 创建数据源
  - 创建过滤器
  - 删除日历
  - 删除数据源
  - 从日历中删除事件
  - 删除过滤器
  - 删除预测
  - 删除作业
  - 从日历中删除作业
  - 删除模型快照
  - 删除过期数据
  - 估计模型内存
  - 刷新作业
  - 预测作业
  - 获取存储桶
  - 获取日历
  - 获取类别
  - 获取数据源
  - 获取数据源统计
  - 获取影响因素
  - 获取作业
  - 获取作业统计
  - 获取模型快照
  - 获取模型快照升级统计
  - 获取总体存储桶
  - 获取计划事件
  - 获取过滤器
  - 获取记录
  - 打开作业
  - 向作业发布数据
  - 预览数据源
  - 重置作业
  - 还原模型快照
  - 启动数据源
  - 停止数据源
  - 更新数据源
  - 更新过滤器
  - 更新作业
  - 更新模型快照
  - 升级模型快照
- 机器学习数据帧分析 API
  - 创建数据帧分析作业
  - 删除数据帧分析作业
  - 评估数据帧分析
  - 解释数据帧分析
  - 获取数据帧分析作业
  - 获取数据帧分析作业统计
  - 预览数据帧分析
  - 启动数据帧分析作业
  - 停止数据帧分析作业
  - 更新数据帧分析作业
- 机器学习训练模型 API
  - 清除训练模型部署缓存
  - 创建或更新训练模型别名
  - 创建训练模型的一部分
  - 创建训练模型
  - 创建训练模型词汇表
  - 删除训练模型别名
  - 删除训练模型
  - 获取训练模型
  - 获取训练模型统计
  - 推断训练模型
  - 启动训练模型部署
  - 停止训练模型部署
  - 更新训练模型部署
- 迁移 API
  - 弃用信息
  - 功能迁移
- 节点生命周期 API
  - 放置关闭 API
  - 获取关闭 API
  - 删除关闭 API
- 查询规则 API
  - 创建或更新查询规则集
  - 获取查询规则集
  - 列出查询规则集
  - 删除查询规则集
  - 创建或更新查询规则
  - 获取查询规则
  - 删除查询规则
  - 测试查询规则集
- 重新加载搜索分析器 API
- 存储库计量 API
  - 获取存储库计量信息
  - 清除存储库计量存档
- 汇总 API
  - 创建汇总作业
  - 删除汇总作业
  - 获取作业
  - 获取汇总上限
  - 获取汇总索引上限
  - 汇总搜索
  - 启动汇总作业
  - 停止汇总作业
- 根 API
- 脚本 API
  - 创建或更新存储脚本
  - 删除存储脚本
  - 获取脚本上下文
  - 获取脚本语言
  - 获取存储脚本
- 搜索 API
  - 搜索
  - 异步搜索
  - 时间点
  - kNN 搜索
  - 检索器
  - 倒数排名融合
  - 滚动
  - 清除滚动
  - 搜索模板
  - 多搜索模板
  - 渲染搜索模板
  - 搜索分片
  - 建议器
  - 多搜索
  - 计数
  - 验证
  - 术语枚举
  - 解释
  - 剖析
  - 字段功能
  - 排名评估
  - 矢量图块搜索
- 搜索应用程序 API
  - 放置搜索应用程序
  - 获取搜索应用程序
  - 列出搜索应用程序
  - 删除搜索应用程序
  - 搜索应用程序搜索
  - 渲染搜索应用程序查询
- 可搜索快照 API
  - 挂载快照
  - 缓存统计
  - 可搜索快照统计
  - 清除缓存
- 安全 API
  - 身份验证
  - 更改密码
  - 清除缓存
  - 清除角色缓存
  - 清除权限缓存
  - 清除 API 密钥缓存
  - 清除服务帐户令牌缓存
  - 创建 API 密钥
  - 创建或更新应用程序权限
  - 创建或更新角色映射
  - 创建或更新角色
  - 批量创建或更新角色 API
  - 批量删除角色 API
  - 创建或更新用户
  - 创建服务帐户令牌
  - 委托 PKI 身份验证
  - 删除应用程序权限
  - 删除角色映射
  - 删除角色
  - 删除服务帐户令牌
  - 删除用户
  - 禁用用户
  - 启用用户
  - 注册 Kibana
  - 注册节点
  - 获取 API 密钥信息
  - 获取应用程序权限
  - 获取内置权限
  - 获取角色映射
  - 获取角色
  - 查询角色
  - 获取服务帐户
  - 获取服务帐户凭据
  - 获取安全设置
  - 获取令牌
  - 获取用户权限
  - 获取用户
  - 授予 API 密钥
  - 具有权限
  - 使 API 密钥失效
  - 使令牌失效
  - OpenID Connect 准备身份验证
  - OpenID Connect 身份验证
  - OpenID Connect 注销
  - 查询 API 密钥信息
  - 查询用户
  - 更新 API 密钥
  - 更新安全设置
  - 批量更新 API 密钥
  - SAML 准备身份验证
  - SAML 身份验证
  - SAML 注销
  - SAML 失效
  - SAML 完成注销
  - SAML 服务提供商元数据
  - SSL 证书
  - 激活用户配置文件
  - 禁用用户配置文件
  - 启用用户配置文件
  - 获取用户配置文件
  - 建议用户配置文件
  - 更新用户配置文件数据
  - 具有用户配置文件权限
  - 创建跨集群 API 密钥
  - 更新跨集群 API 密钥
- 快照和还原 API
  - 创建或更新快照存储库
  - 验证快照存储库
  - 存储库分析
  - 验证存储库完整性
  - 获取快照存储库
  - 删除快照存储库
  - 清理快照存储库
  - 克隆快照
  - 创建快照
  - 获取快照
  - 获取快照状态
  - 还原快照
  - 删除快照
- 快照生命周期管理 API
  - 创建或更新策略
  - 获取策略
  - 删除策略
  - 执行快照生命周期策略
  - 执行快照保留策略
  - 获取快照生命周期管理状态
  - 获取快照生命周期统计
  - 启动快照生命周期管理
  - 停止快照生命周期管理
- SQL API
  - 清除 SQL 光标
  - 删除异步 SQL 搜索
  - 获取异步 SQL 搜索
  - 获取异步 SQL 搜索状态
  - SQL 搜索
  - SQL 转换
- 同义词 API
  - 创建或更新同义词集
  - 获取同义词集
  - 列出同义词集
  - 删除同义词集
  - 创建或更新同义词规则
  - 获取同义词规则
  - 删除同义词规则
- 文本结构 API
  - 查找字段结构 API
  - 查找消息结构 API
  - 查找文本结构 API
  - 测试 Grok 模式
- 转换 API
  - 创建转换
  - 删除转换
  - 获取转换
  - 获取转换统计
  - 预览转换
  - 重置转换
  - 立即计划转换
  - 启动转换
  - 停止转换
  - 更新转换
  - 升级转换
- 使用情况 API
- Watcher API
  - 确认观察
  - 激活观察
  - 停用观察
  - 删除观察
  - 执行观察
  - 获取观察
  - 获取 Watcher 统计
  - 查询观察
  - 创建或更新观察
  - 更新 Watcher 设置
  - 获取 Watcher 设置
  - 启动观察服务
  - 停止观察服务
- 定义
  - 角色映射资源
迁移指南
- 8.17
- 8.16
- 8.15
- 8.14
- 8.13
- 8.12
- 8.11
- 8.10
- 8.9
- 8.8
- 8.7
- 8.6
- 8.5
- 8.4
- 8.3
- 8.2
- 8.1
- 8.0
  - Java 时间迁移指南
  - 瞬态设置迁移指南
发行说明
- Elasticsearch 版本 8.17.0
- Elasticsearch 版本 8.16.1
- Elasticsearch 版本 8.16.0
- Elasticsearch 版本 8.15.5
- Elasticsearch 版本 8.15.4
- Elasticsearch 版本 8.15.3
- Elasticsearch 版本 8.15.2
- Elasticsearch 版本 8.15.1
- Elasticsearch 版本 8.15.0
- Elasticsearch 版本 8.14.3
- Elasticsearch 版本 8.14.2
- Elasticsearch 版本 8.14.1
- Elasticsearch 版本 8.14.0
- Elasticsearch 版本 8.13.4
- Elasticsearch 版本 8.13.3
- Elasticsearch 版本 8.13.2
  - 错误修复
- Elasticsearch 版本 8.13.1
  - 错误修复
- Elasticsearch 版本 8.13.0
- Elasticsearch 版本 8.12.2
- Elasticsearch 版本 8.12.1
- Elasticsearch 版本 8.12.0
- Elasticsearch 版本 8.11.4
- Elasticsearch 版本 8.11.3
- Elasticsearch 版本 8.11.2
- Elasticsearch 版本 8.11.1
- Elasticsearch 版本 8.11.0
- Elasticsearch 版本 8.10.4
- Elasticsearch 版本 8.10.3
- Elasticsearch 版本 8.10.2
- Elasticsearch 版本 8.10.1
- Elasticsearch 版本 8.10.0
- Elasticsearch 版本 8.9.2
- Elasticsearch 版本 8.9.1
- Elasticsearch 版本 8.9.0
- Elasticsearch 版本 8.8.2
- Elasticsearch 版本 8.8.1
- Elasticsearch 版本 8.8.0
- Elasticsearch 版本 8.7.1
- Elasticsearch 版本 8.7.0
- Elasticsearch 版本 8.6.2
- Elasticsearch 版本 8.6.1
- Elasticsearch 版本 8.6.0
- Elasticsearch 版本 8.5.3
- Elasticsearch 版本 8.5.2
- Elasticsearch 版本 8.5.1
- Elasticsearch 版本 8.5.0
- Elasticsearch 版本 8.4.3
- Elasticsearch 版本 8.4.2
- Elasticsearch 版本 8.4.1
- Elasticsearch 版本 8.4.0
- Elasticsearch 版本 8.3.3
- Elasticsearch 版本 8.3.2
- Elasticsearch 版本 8.3.1
- Elasticsearch 版本 8.3.0
- Elasticsearch 版本 8.2.3
- Elasticsearch 版本 8.2.2
- Elasticsearch 版本 8.2.1
- Elasticsearch 版本 8.2.0
- Elasticsearch 版本 8.1.3
- Elasticsearch 版本 8.1.2
- Elasticsearch 版本 8.1.1
- Elasticsearch 版本 8.1.0
- Elasticsearch 版本 8.0.1
- Elasticsearch 版本 8.0.0
- Elasticsearch 版本 8.0.0-rc2
- Elasticsearch 版本 8.0.0-rc1
- Elasticsearch 版本 8.0.0-beta1
- Elasticsearch 版本 8.0.0-alpha2
- Elasticsearch 版本 8.0.0-alpha1
依赖项和版本

› › ›

查找文本结构 API

编辑

查找文本结构 API

编辑

查找文本的结构。文本必须包含适合摄取到 Elastic Stack 中的数据。

请求

编辑

POST _text_structure/find_structure

先决条件

编辑

如果启用了 Elasticsearch 安全功能，您必须拥有 monitor_text_structure 或 monitor 集群权限才能使用此 API。请参阅安全权限。

描述

编辑

此 API 为将数据以适合后续与其他 Elastic Stack 功能一起使用的格式摄取到 Elasticsearch 中提供了起点。

与其他 Elasticsearch 端点不同，发布到此端点的数据不需要使用 UTF-8 编码并且采用 JSON 格式。但是，它必须是文本；目前不支持二进制文本格式。

API 的响应包含

来自文本开头的一些消息。
揭示文本中检测到的所有字段的最常见值的统计信息，以及数值字段的基本数值统计信息。
有关文本结构的信息，当您编写索引它或类似格式文本的摄取配置时，此信息非常有用。
适用于 Elasticsearch 索引的映射，您可以用来摄取文本。

所有这些信息都可以由结构查找器在没有指导的情况下计算出来。但是，您可以选择通过指定一个或多个查询参数来覆盖有关文本结构的一些决策。

有关输出的详细信息，请参阅示例。

如果结构查找器对于某些文本产生意外结果，请指定 explain 查询参数。它会导致响应中出现一个 explanation，这应该有助于确定为什么选择返回的结构。

查询参数

编辑

charset

（可选，字符串）文本的字符集。它必须是 Elasticsearch 使用的 JVM 支持的字符集。例如，UTF-8、UTF-16LE、windows-1252 或 EUC-JP。如果未指定此参数，则结构查找器将选择适当的字符集。

column_names

（可选，字符串）如果您已将 format 设置为 delimited，则可以在逗号分隔的列表中指定列名。如果未指定此参数，则结构查找器将使用文本标题行中的列名。如果文本没有标题行，则列将命名为“column1”、“column2”、“column3”等。

delimiter

（可选，字符串）如果您已将 format 设置为 delimited，则可以指定用于分隔每行值的字符。仅支持单个字符；分隔符不能有多个字符。默认情况下，API 会考虑以下可能性：逗号、制表符、分号和管道符 (|)。在此默认场景中，所有行必须具有相同数量的字段，才能检测到分隔格式。如果您指定分隔符，则最多 10% 的行可以具有与第一行不同数量的列。

explain

（可选，布尔值）如果为 true，则响应将包含一个名为 explanation 的字段，该字段是一个字符串数组，指示结构查找器如何生成其结果。默认值为 false。

format

（可选，字符串）文本的高级结构。有效值为 ndjson、xml、delimited 和 semi_structured_text。默认情况下，API 会选择格式。在此默认场景中，所有行必须具有相同数量的字段，才能检测到分隔格式。但是，如果将 format 设置为 delimited 且未设置 delimiter，则 API 允许最多 5% 的行的列数与第一行不同。

grok_pattern

（可选，字符串）如果您已将 format 设置为 semi_structured_text，则可以指定一个 Grok 模式，该模式用于从文本中的每条消息中提取字段。Grok 模式中时间戳字段的名称必须与 timestamp_field 参数中指定的名称匹配。如果未指定该参数，则 Grok 模式中时间戳字段的名称必须与“timestamp”匹配。如果未指定 grok_pattern，则结构查找器将创建一个 Grok 模式。

ecs_compatibility

（可选，字符串）与 ECS 兼容的 Grok 模式的兼容模式。当结构查找器创建 Grok 模式时，使用此参数指定是否使用 ECS Grok 模式而不是旧模式。有效值为 disabled 和 v1。默认值为 disabled。当诸如 %{CATALINALOG} 之类的整个消息 Grok 模式与输入匹配时，此设置主要会产生影响。如果结构查找器识别出通用结构，但不知道含义，则会在 grok_pattern 输出中使用诸如 path、ipaddress、field1 和 field2 之类的通用字段名称，目的是让知道含义的用户在使用之前重命名这些字段。

has_header_row

（可选，布尔值）如果您已将 format 设置为 delimited，则可以使用此参数指示列名是否位于文本的第一行中。如果未指定此参数，则结构查找器会根据文本第一行与其他行的相似性进行猜测。

line_merge_size_limit

（可选，无符号整数）当合并行以在分析半结构化文本时形成消息时，消息中的最大字符数。默认值为 10000。如果您的消息非常长，则可能需要增加此值，但请注意，如果将行分组为消息的方式检测错误，则可能会导致处理时间非常长。

lines_to_sample

（可选，无符号整数）要包含在结构分析中的行数，从文本开头开始。最小值为 2；默认值为 1000。如果此参数的值大于文本中的行数，则分析将针对所有行进行（只要文本中至少有两行）。

行数和行的变化会影响分析的速度。例如，如果您上传的文本中前 1000 行都是同一消息的变体，则分析将比更大的样本看到更多的共性。但是，如果可能，上传前 1000 行具有更多变化的示例文本，比请求分析 100000 行以实现一些变化更有效。

quote

（可选，字符串）如果您已将 format 设置为 delimited，则可以指定用于引用每行中值的字符（如果它们包含换行符或分隔符字符）。仅支持单个字符。如果未指定此参数，则默认值为双引号 (")。如果您的分隔文本格式不使用引号，一种解决方法是将此参数设置为示例中任何位置都不会出现的字符。

should_trim_fields

（可选，布尔值）如果您已将 format 设置为 delimited，则可以指定是否应从分隔符之间的值中删除空格。如果未指定此参数且分隔符是管道符 (|)，则默认值为 true。否则，默认值为 false。

timeout

（可选，时间单位）设置结构分析可能花费的最长时间。如果在超时到期时分析仍在运行，则会停止分析。默认值为 25 秒。

timestamp_field

（可选，字符串）包含文本中每个记录的主时间戳的字段的名称。特别是，如果将文本摄取到索引中，则此字段将用于填充 @timestamp 字段。

如果 format 是 semi_structured_text，则此字段必须与 grok_pattern 中的相应提取名称匹配。因此，对于半结构化文本，最好不要指定此参数，除非也指定了 grok_pattern。

对于结构化文本，如果指定此参数，则该字段必须存在于文本中。

如果未指定此参数，则结构查找器将决定哪个字段（如果有）是主时间戳字段。对于结构化文本，文本中不强制包含时间戳。

timestamp_format

（可选，字符串）文本中时间戳字段的 Java 时间格式。

仅支持 Java 时间格式字母组的子集

a
d
dd
EEE
EEEE
H
HH
h
M
MM
MMM
MMMM
mm
ss
XX
XXX
yy
yyyy
zzz

此外，还支持长度为一到九的 S 字母组（小数秒），前提是它们出现在 ss 之后，并与 ss 以 .、, 或 : 分隔。允许使用空格和标点符号，但 ?、换行符和回车符除外，以及用单引号括起来的文字。例如，MM/dd HH.mm.ss,SSSSSS 'in' yyyy 是一种有效的替代格式。

此参数的一个有价值的用例是，当格式为半结构化文本，文本中存在多种时间戳格式，并且您知道哪个格式对应于主时间戳，但是您不想指定完整的 grok_pattern 时。另一个用例是时间戳格式是结构查找器默认不考虑的格式时。

如果未指定此参数，则结构查找器将从内置集中选择最佳格式。

如果指定特殊值 null，结构查找器将不会在文本中查找主时间戳。当格式为半结构化文本时，这将导致结构查找器将文本视为单行消息。

下表提供了一些示例时间戳的适当 timeformat 值

时间格式	呈现
yyyy-MM-dd HH:mm:ssZ	2019-04-20 13:15:22+0000
EEE, d MMM yyyy HH:mm:ss Z	Sat, 20 Apr 2019 13:15:22 +0000
dd.MM.yy HH:mm:ss.SSS	20.04.19 13:15:22.285

有关日期和时间格式语法的更多信息，请参阅 Java 日期/时间格式文档。

请求正文

编辑

您要分析的文本。它必须包含适合摄取到 Elasticsearch 中的数据。它不需要是 JSON 格式，也不需要是 UTF-8 编码。大小限制为 Elasticsearch HTTP 接收缓冲区大小，默认为 100 Mb。

示例

编辑

摄取换行符分隔的 JSON

编辑

假设您有换行符分隔的 JSON 文本，其中包含有关一些书籍的信息。您可以将内容发送到 find_structure 端点

resp = client.text_structure.find_structure(
    text_files=[
        {
            "name": "Leviathan Wakes",
            "author": "James S.A. Corey",
            "release_date": "2011-06-02",
            "page_count": 561
        },
        {
            "name": "Hyperion",
            "author": "Dan Simmons",
            "release_date": "1989-05-26",
            "page_count": 482
        },
        {
            "name": "Dune",
            "author": "Frank Herbert",
            "release_date": "1965-06-01",
            "page_count": 604
        },
        {
            "name": "Dune Messiah",
            "author": "Frank Herbert",
            "release_date": "1969-10-15",
            "page_count": 331
        },
        {
            "name": "Children of Dune",
            "author": "Frank Herbert",
            "release_date": "1976-04-21",
            "page_count": 408
        },
        {
            "name": "God Emperor of Dune",
            "author": "Frank Herbert",
            "release_date": "1981-05-28",
            "page_count": 454
        },
        {
            "name": "Consider Phlebas",
            "author": "Iain M. Banks",
            "release_date": "1987-04-23",
            "page_count": 471
        },
        {
            "name": "Pandora's Star",
            "author": "Peter F. Hamilton",
            "release_date": "2004-03-02",
            "page_count": 768
        },
        {
            "name": "Revelation Space",
            "author": "Alastair Reynolds",
            "release_date": "2000-03-15",
            "page_count": 585
        },
        {
            "name": "A Fire Upon the Deep",
            "author": "Vernor Vinge",
            "release_date": "1992-06-01",
            "page_count": 613
        },
        {
            "name": "Ender's Game",
            "author": "Orson Scott Card",
            "release_date": "1985-06-01",
            "page_count": 324
        },
        {
            "name": "1984",
            "author": "George Orwell",
            "release_date": "1985-06-01",
            "page_count": 328
        },
        {
            "name": "Fahrenheit 451",
            "author": "Ray Bradbury",
            "release_date": "1953-10-15",
            "page_count": 227
        },
        {
            "name": "Brave New World",
            "author": "Aldous Huxley",
            "release_date": "1932-06-01",
            "page_count": 268
        },
        {
            "name": "Foundation",
            "author": "Isaac Asimov",
            "release_date": "1951-06-01",
            "page_count": 224
        },
        {
            "name": "The Giver",
            "author": "Lois Lowry",
            "release_date": "1993-04-26",
            "page_count": 208
        },
        {
            "name": "Slaughterhouse-Five",
            "author": "Kurt Vonnegut",
            "release_date": "1969-06-01",
            "page_count": 275
        },
        {
            "name": "The Hitchhiker's Guide to the Galaxy",
            "author": "Douglas Adams",
            "release_date": "1979-10-12",
            "page_count": 180
        },
        {
            "name": "Snow Crash",
            "author": "Neal Stephenson",
            "release_date": "1992-06-01",
            "page_count": 470
        },
        {
            "name": "Neuromancer",
            "author": "William Gibson",
            "release_date": "1984-07-01",
            "page_count": 271
        },
        {
            "name": "The Handmaid's Tale",
            "author": "Margaret Atwood",
            "release_date": "1985-06-01",
            "page_count": 311
        },
        {
            "name": "Starship Troopers",
            "author": "Robert A. Heinlein",
            "release_date": "1959-12-01",
            "page_count": 335
        },
        {
            "name": "The Left Hand of Darkness",
            "author": "Ursula K. Le Guin",
            "release_date": "1969-06-01",
            "page_count": 304
        },
        {
            "name": "The Moon is a Harsh Mistress",
            "author": "Robert A. Heinlein",
            "release_date": "1966-04-01",
            "page_count": 288
        }
    ],
)
print(resp)

response = client.text_structure.find_structure(
  body: [
    {
      name: 'Leviathan Wakes',
      author: 'James S.A. Corey',
      release_date: '2011-06-02',
      page_count: 561
    },
    {
      name: 'Hyperion',
      author: 'Dan Simmons',
      release_date: '1989-05-26',
      page_count: 482
    },
    {
      name: 'Dune',
      author: 'Frank Herbert',
      release_date: '1965-06-01',
      page_count: 604
    },
    {
      name: 'Dune Messiah',
      author: 'Frank Herbert',
      release_date: '1969-10-15',
      page_count: 331
    },
    {
      name: 'Children of Dune',
      author: 'Frank Herbert',
      release_date: '1976-04-21',
      page_count: 408
    },
    {
      name: 'God Emperor of Dune',
      author: 'Frank Herbert',
      release_date: '1981-05-28',
      page_count: 454
    },
    {
      name: 'Consider Phlebas',
      author: 'Iain M. Banks',
      release_date: '1987-04-23',
      page_count: 471
    },
    {
      name: "Pandora's Star",
      author: 'Peter F. Hamilton',
      release_date: '2004-03-02',
      page_count: 768
    },
    {
      name: 'Revelation Space',
      author: 'Alastair Reynolds',
      release_date: '2000-03-15',
      page_count: 585
    },
    {
      name: 'A Fire Upon the Deep',
      author: 'Vernor Vinge',
      release_date: '1992-06-01',
      page_count: 613
    },
    {
      name: "Ender's Game",
      author: 'Orson Scott Card',
      release_date: '1985-06-01',
      page_count: 324
    },
    {
      name: '1984',
      author: 'George Orwell',
      release_date: '1985-06-01',
      page_count: 328
    },
    {
      name: 'Fahrenheit 451',
      author: 'Ray Bradbury',
      release_date: '1953-10-15',
      page_count: 227
    },
    {
      name: 'Brave New World',
      author: 'Aldous Huxley',
      release_date: '1932-06-01',
      page_count: 268
    },
    {
      name: 'Foundation',
      author: 'Isaac Asimov',
      release_date: '1951-06-01',
      page_count: 224
    },
    {
      name: 'The Giver',
      author: 'Lois Lowry',
      release_date: '1993-04-26',
      page_count: 208
    },
    {
      name: 'Slaughterhouse-Five',
      author: 'Kurt Vonnegut',
      release_date: '1969-06-01',
      page_count: 275
    },
    {
      name: "The Hitchhiker's Guide to the Galaxy",
      author: 'Douglas Adams',
      release_date: '1979-10-12',
      page_count: 180
    },
    {
      name: 'Snow Crash',
      author: 'Neal Stephenson',
      release_date: '1992-06-01',
      page_count: 470
    },
    {
      name: 'Neuromancer',
      author: 'William Gibson',
      release_date: '1984-07-01',
      page_count: 271
    },
    {
      name: "The Handmaid's Tale",
      author: 'Margaret Atwood',
      release_date: '1985-06-01',
      page_count: 311
    },
    {
      name: 'Starship Troopers',
      author: 'Robert A. Heinlein',
      release_date: '1959-12-01',
      page_count: 335
    },
    {
      name: 'The Left Hand of Darkness',
      author: 'Ursula K. Le Guin',
      release_date: '1969-06-01',
      page_count: 304
    },
    {
      name: 'The Moon is a Harsh Mistress',
      author: 'Robert A. Heinlein',
      release_date: '1966-04-01',
      page_count: 288
    }
  ]
)
puts response

const response = await client.textStructure.findStructure({
  text_files: [
    {
      name: "Leviathan Wakes",
      author: "James S.A. Corey",
      release_date: "2011-06-02",
      page_count: 561,
    },
    {
      name: "Hyperion",
      author: "Dan Simmons",
      release_date: "1989-05-26",
      page_count: 482,
    },
    {
      name: "Dune",
      author: "Frank Herbert",
      release_date: "1965-06-01",
      page_count: 604,
    },
    {
      name: "Dune Messiah",
      author: "Frank Herbert",
      release_date: "1969-10-15",
      page_count: 331,
    },
    {
      name: "Children of Dune",
      author: "Frank Herbert",
      release_date: "1976-04-21",
      page_count: 408,
    },
    {
      name: "God Emperor of Dune",
      author: "Frank Herbert",
      release_date: "1981-05-28",
      page_count: 454,
    },
    {
      name: "Consider Phlebas",
      author: "Iain M. Banks",
      release_date: "1987-04-23",
      page_count: 471,
    },
    {
      name: "Pandora's Star",
      author: "Peter F. Hamilton",
      release_date: "2004-03-02",
      page_count: 768,
    },
    {
      name: "Revelation Space",
      author: "Alastair Reynolds",
      release_date: "2000-03-15",
      page_count: 585,
    },
    {
      name: "A Fire Upon the Deep",
      author: "Vernor Vinge",
      release_date: "1992-06-01",
      page_count: 613,
    },
    {
      name: "Ender's Game",
      author: "Orson Scott Card",
      release_date: "1985-06-01",
      page_count: 324,
    },
    {
      name: "1984",
      author: "George Orwell",
      release_date: "1985-06-01",
      page_count: 328,
    },
    {
      name: "Fahrenheit 451",
      author: "Ray Bradbury",
      release_date: "1953-10-15",
      page_count: 227,
    },
    {
      name: "Brave New World",
      author: "Aldous Huxley",
      release_date: "1932-06-01",
      page_count: 268,
    },
    {
      name: "Foundation",
      author: "Isaac Asimov",
      release_date: "1951-06-01",
      page_count: 224,
    },
    {
      name: "The Giver",
      author: "Lois Lowry",
      release_date: "1993-04-26",
      page_count: 208,
    },
    {
      name: "Slaughterhouse-Five",
      author: "Kurt Vonnegut",
      release_date: "1969-06-01",
      page_count: 275,
    },
    {
      name: "The Hitchhiker's Guide to the Galaxy",
      author: "Douglas Adams",
      release_date: "1979-10-12",
      page_count: 180,
    },
    {
      name: "Snow Crash",
      author: "Neal Stephenson",
      release_date: "1992-06-01",
      page_count: 470,
    },
    {
      name: "Neuromancer",
      author: "William Gibson",
      release_date: "1984-07-01",
      page_count: 271,
    },
    {
      name: "The Handmaid's Tale",
      author: "Margaret Atwood",
      release_date: "1985-06-01",
      page_count: 311,
    },
    {
      name: "Starship Troopers",
      author: "Robert A. Heinlein",
      release_date: "1959-12-01",
      page_count: 335,
    },
    {
      name: "The Left Hand of Darkness",
      author: "Ursula K. Le Guin",
      release_date: "1969-06-01",
      page_count: 304,
    },
    {
      name: "The Moon is a Harsh Mistress",
      author: "Robert A. Heinlein",
      release_date: "1966-04-01",
      page_count: 288,
    },
  ],
});
console.log(response);

POST _text_structure/find_structure
{"name": "Leviathan Wakes", "author": "James S.A. Corey", "release_date": "2011-06-02", "page_count": 561}
{"name": "Hyperion", "author": "Dan Simmons", "release_date": "1989-05-26", "page_count": 482}
{"name": "Dune", "author": "Frank Herbert", "release_date": "1965-06-01", "page_count": 604}
{"name": "Dune Messiah", "author": "Frank Herbert", "release_date": "1969-10-15", "page_count": 331}
{"name": "Children of Dune", "author": "Frank Herbert", "release_date": "1976-04-21", "page_count": 408}
{"name": "God Emperor of Dune", "author": "Frank Herbert", "release_date": "1981-05-28", "page_count": 454}
{"name": "Consider Phlebas", "author": "Iain M. Banks", "release_date": "1987-04-23", "page_count": 471}
{"name": "Pandora's Star", "author": "Peter F. Hamilton", "release_date": "2004-03-02", "page_count": 768}
{"name": "Revelation Space", "author": "Alastair Reynolds", "release_date": "2000-03-15", "page_count": 585}
{"name": "A Fire Upon the Deep", "author": "Vernor Vinge", "release_date": "1992-06-01", "page_count": 613}
{"name": "Ender's Game", "author": "Orson Scott Card", "release_date": "1985-06-01", "page_count": 324}
{"name": "1984", "author": "George Orwell", "release_date": "1985-06-01", "page_count": 328}
{"name": "Fahrenheit 451", "author": "Ray Bradbury", "release_date": "1953-10-15", "page_count": 227}
{"name": "Brave New World", "author": "Aldous Huxley", "release_date": "1932-06-01", "page_count": 268}
{"name": "Foundation", "author": "Isaac Asimov", "release_date": "1951-06-01", "page_count": 224}
{"name": "The Giver", "author": "Lois Lowry", "release_date": "1993-04-26", "page_count": 208}
{"name": "Slaughterhouse-Five", "author": "Kurt Vonnegut", "release_date": "1969-06-01", "page_count": 275}
{"name": "The Hitchhiker's Guide to the Galaxy", "author": "Douglas Adams", "release_date": "1979-10-12", "page_count": 180}
{"name": "Snow Crash", "author": "Neal Stephenson", "release_date": "1992-06-01", "page_count": 470}
{"name": "Neuromancer", "author": "William Gibson", "release_date": "1984-07-01", "page_count": 271}
{"name": "The Handmaid's Tale", "author": "Margaret Atwood", "release_date": "1985-06-01", "page_count": 311}
{"name": "Starship Troopers", "author": "Robert A. Heinlein", "release_date": "1959-12-01", "page_count": 335}
{"name": "The Left Hand of Darkness", "author": "Ursula K. Le Guin", "release_date": "1969-06-01", "page_count": 304}
{"name": "The Moon is a Harsh Mistress", "author": "Robert A. Heinlein", "release_date": "1966-04-01", "page_count": 288}

Copy as curl Try in Elastic

如果请求没有遇到错误，您将收到以下结果

{
  "num_lines_analyzed" : 24, 
  "num_messages_analyzed" : 24, 
  "sample_start" : "{\"name\": \"Leviathan Wakes\", \"author\": \"James S.A. Corey\", \"release_date\": \"2011-06-02\", \"page_count\": 561}\n{\"name\": \"Hyperion\", \"author\": \"Dan Simmons\", \"release_date\": \"1989-05-26\", \"page_count\": 482}\n", 
  "charset" : "UTF-8", 
  "has_byte_order_marker" : false, 
  "format" : "ndjson", 
  "ecs_compatibility" : "disabled", 
  "timestamp_field" : "release_date", 
  "joda_timestamp_formats" : [ 
    "ISO8601"
  ],
  "java_timestamp_formats" : [ 
    "ISO8601"
  ],
  "need_client_timezone" : true, 
  "mappings" : { 
    "properties" : {
      "@timestamp" : {
        "type" : "date"
      },
      "author" : {
        "type" : "keyword"
      },
      "name" : {
        "type" : "keyword"
      },
      "page_count" : {
        "type" : "long"
      },
      "release_date" : {
        "type" : "date",
        "format" : "iso8601"
      }
    }
  },
  "ingest_pipeline" : {
    "description" : "Ingest pipeline created by text structure finder",
    "processors" : [
      {
        "date" : {
          "field" : "release_date",
          "timezone" : "{{ event.timezone }}",
          "formats" : [
            "ISO8601"
          ]
        }
      }
    ]
  },
  "field_stats" : { 
    "author" : {
      "count" : 24,
      "cardinality" : 20,
      "top_hits" : [
        {
          "value" : "Frank Herbert",
          "count" : 4
        },
        {
          "value" : "Robert A. Heinlein",
          "count" : 2
        },
        {
          "value" : "Alastair Reynolds",
          "count" : 1
        },
        {
          "value" : "Aldous Huxley",
          "count" : 1
        },
        {
          "value" : "Dan Simmons",
          "count" : 1
        },
        {
          "value" : "Douglas Adams",
          "count" : 1
        },
        {
          "value" : "George Orwell",
          "count" : 1
        },
        {
          "value" : "Iain M. Banks",
          "count" : 1
        },
        {
          "value" : "Isaac Asimov",
          "count" : 1
        },
        {
          "value" : "James S.A. Corey",
          "count" : 1
        }
      ]
    },
    "name" : {
      "count" : 24,
      "cardinality" : 24,
      "top_hits" : [
        {
          "value" : "1984",
          "count" : 1
        },
        {
          "value" : "A Fire Upon the Deep",
          "count" : 1
        },
        {
          "value" : "Brave New World",
          "count" : 1
        },
        {
          "value" : "Children of Dune",
          "count" : 1
        },
        {
          "value" : "Consider Phlebas",
          "count" : 1
        },
        {
          "value" : "Dune",
          "count" : 1
        },
        {
          "value" : "Dune Messiah",
          "count" : 1
        },
        {
          "value" : "Ender's Game",
          "count" : 1
        },
        {
          "value" : "Fahrenheit 451",
          "count" : 1
        },
        {
          "value" : "Foundation",
          "count" : 1
        }
      ]
    },
    "page_count" : {
      "count" : 24,
      "cardinality" : 24,
      "min_value" : 180,
      "max_value" : 768,
      "mean_value" : 387.0833333333333,
      "median_value" : 329.5,
      "top_hits" : [
        {
          "value" : 180,
          "count" : 1
        },
        {
          "value" : 208,
          "count" : 1
        },
        {
          "value" : 224,
          "count" : 1
        },
        {
          "value" : 227,
          "count" : 1
        },
        {
          "value" : 268,
          "count" : 1
        },
        {
          "value" : 271,
          "count" : 1
        },
        {
          "value" : 275,
          "count" : 1
        },
        {
          "value" : 288,
          "count" : 1
        },
        {
          "value" : 304,
          "count" : 1
        },
        {
          "value" : 311,
          "count" : 1
        }
      ]
    },
    "release_date" : {
      "count" : 24,
      "cardinality" : 20,
      "earliest" : "1932-06-01",
      "latest" : "2011-06-02",
      "top_hits" : [
        {
          "value" : "1985-06-01",
          "count" : 3
        },
        {
          "value" : "1969-06-01",
          "count" : 2
        },
        {
          "value" : "1992-06-01",
          "count" : 2
        },
        {
          "value" : "1932-06-01",
          "count" : 1
        },
        {
          "value" : "1951-06-01",
          "count" : 1
        },
        {
          "value" : "1953-10-15",
          "count" : 1
        },
        {
          "value" : "1959-12-01",
          "count" : 1
        },
        {
          "value" : "1965-06-01",
          "count" : 1
        },
        {
          "value" : "1966-04-01",
          "count" : 1
        },
        {
          "value" : "1969-10-15",
          "count" : 1
        }
      ]
    }
  }
}

	`num_lines_analyzed` 指示分析了文本的多少行。
	`num_messages_analyzed` 指示这些行包含多少不同的消息。对于 NDJSON，此值与 `num_lines_analyzed` 相同。对于其他文本格式，消息可以跨越多行。
	`sample_start` 逐字重复文本中的前两条消息。这可能有助于诊断解析错误或意外上传的错误文本。
	`charset` 指示用于解析文本的字符编码。
	对于 UTF 字符编码，`has_byte_order_marker` 指示文本是否以字节顺序标记开头。
	`format` 是 `ndjson`、`xml`、`delimited` 或 `semi_structured_text` 之一。
	`ecs_compatibility` 要么是 `disabled` 要么是 `v1`，默认为 `disabled`。
	`timestamp_field` 命名被认为最有可能作为每个文档的主时间戳的字段。
	`joda_timestamp_formats` 用于告诉 Logstash 如何解析时间戳。
	`java_timestamp_formats` 是时间字段中识别的 Java 时间格式。Elasticsearch 映射和摄取管道使用此格式。
	如果检测到的时间戳格式不包含时区，则 `need_client_timezone` 将为 `true`。因此，解析文本的服务器必须由客户端告知正确的时区。
	`mappings` 包含一些适用于可以摄取数据的索引的映射。在这种情况下，`release_date` 字段已被赋予 `keyword` 类型，因为它被认为不够具体，无法转换为 `date` 类型。
	`field_stats` 包含每个字段最常见的值，以及数字 `page_count` 字段的基本数字统计信息。此信息可能提供线索，表明数据在使用其他 Elastic Stack 功能之前需要进行清理或转换。

查找纽约市出租车示例数据的结构

编辑

下一个示例说明如何查找纽约市出租车行程数据的一些结构。第一个 curl 命令下载数据，然后将前 20000 行数据管道传输到 find_structure 端点。lines_to_sample 端点的查询参数设置为 20000，以匹配 head 命令中指定的内容。

curl -s "s3.amazonaws.com/nyc-tlc/trip+data/yellow_tripdata_2018-06.csv" | head -20000 | curl -s -H "Content-Type: application/json" -XPOST "localhost:9200/_text_structure/find_structure?pretty&lines_to_sample=20000" -T -

即使在这种情况下数据不是 JSON，也必须设置 Content-Type: application/json 标头。（或者，可以将 Content-Type 设置为 Elasticsearch 支持的任何其他类型，但必须设置。）

如果请求没有遇到错误，您将收到以下结果

{
  "num_lines_analyzed" : 20000,
  "num_messages_analyzed" : 19998, 
  "sample_start" : "VendorID,tpep_pickup_datetime,tpep_dropoff_datetime,passenger_count,trip_distance,RatecodeID,store_and_fwd_flag,PULocationID,DOLocationID,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount\n\n1,2018-06-01 00:15:40,2018-06-01 00:16:46,1,.00,1,N,145,145,2,3,0.5,0.5,0,0,0.3,4.3\n",
  "charset" : "UTF-8",
  "has_byte_order_marker" : false,
  "format" : "delimited", 
  "multiline_start_pattern" : "^.*?,\"?\\d{4}-\\d{2}-\\d{2}[T ]\\d{2}:\\d{2}",
  "exclude_lines_pattern" : "^\"?VendorID\"?,\"?tpep_pickup_datetime\"?,\"?tpep_dropoff_datetime\"?,\"?passenger_count\"?,\"?trip_distance\"?,\"?RatecodeID\"?,\"?store_and_fwd_flag\"?,\"?PULocationID\"?,\"?DOLocationID\"?,\"?payment_type\"?,\"?fare_amount\"?,\"?extra\"?,\"?mta_tax\"?,\"?tip_amount\"?,\"?tolls_amount\"?,\"?improvement_surcharge\"?,\"?total_amount\"?",
  "column_names" : [ 
    "VendorID",
    "tpep_pickup_datetime",
    "tpep_dropoff_datetime",
    "passenger_count",
    "trip_distance",
    "RatecodeID",
    "store_and_fwd_flag",
    "PULocationID",
    "DOLocationID",
    "payment_type",
    "fare_amount",
    "extra",
    "mta_tax",
    "tip_amount",
    "tolls_amount",
    "improvement_surcharge",
    "total_amount"
  ],
  "has_header_row" : true, 
  "delimiter" : ",", 
  "quote" : "\"", 
  "timestamp_field" : "tpep_pickup_datetime", 
  "joda_timestamp_formats" : [ 
    "YYYY-MM-dd HH:mm:ss"
  ],
  "java_timestamp_formats" : [ 
    "yyyy-MM-dd HH:mm:ss"
  ],
  "need_client_timezone" : true, 
  "mappings" : {
    "properties" : {
      "@timestamp" : {
        "type" : "date"
      },
      "DOLocationID" : {
        "type" : "long"
      },
      "PULocationID" : {
        "type" : "long"
      },
      "RatecodeID" : {
        "type" : "long"
      },
      "VendorID" : {
        "type" : "long"
      },
      "extra" : {
        "type" : "double"
      },
      "fare_amount" : {
        "type" : "double"
      },
      "improvement_surcharge" : {
        "type" : "double"
      },
      "mta_tax" : {
        "type" : "double"
      },
      "passenger_count" : {
        "type" : "long"
      },
      "payment_type" : {
        "type" : "long"
      },
      "store_and_fwd_flag" : {
        "type" : "keyword"
      },
      "tip_amount" : {
        "type" : "double"
      },
      "tolls_amount" : {
        "type" : "double"
      },
      "total_amount" : {
        "type" : "double"
      },
      "tpep_dropoff_datetime" : {
        "type" : "date",
        "format" : "yyyy-MM-dd HH:mm:ss"
      },
      "tpep_pickup_datetime" : {
        "type" : "date",
        "format" : "yyyy-MM-dd HH:mm:ss"
      },
      "trip_distance" : {
        "type" : "double"
      }
    }
  },
  "ingest_pipeline" : {
    "description" : "Ingest pipeline created by text structure finder",
    "processors" : [
      {
        "csv" : {
          "field" : "message",
          "target_fields" : [
            "VendorID",
            "tpep_pickup_datetime",
            "tpep_dropoff_datetime",
            "passenger_count",
            "trip_distance",
            "RatecodeID",
            "store_and_fwd_flag",
            "PULocationID",
            "DOLocationID",
            "payment_type",
            "fare_amount",
            "extra",
            "mta_tax",
            "tip_amount",
            "tolls_amount",
            "improvement_surcharge",
            "total_amount"
          ]
        }
      },
      {
        "date" : {
          "field" : "tpep_pickup_datetime",
          "timezone" : "{{ event.timezone }}",
          "formats" : [
            "yyyy-MM-dd HH:mm:ss"
          ]
        }
      },
      {
        "convert" : {
          "field" : "DOLocationID",
          "type" : "long"
        }
      },
      {
        "convert" : {
          "field" : "PULocationID",
          "type" : "long"
        }
      },
      {
        "convert" : {
          "field" : "RatecodeID",
          "type" : "long"
        }
      },
      {
        "convert" : {
          "field" : "VendorID",
          "type" : "long"
        }
      },
      {
        "convert" : {
          "field" : "extra",
          "type" : "double"
        }
      },
      {
        "convert" : {
          "field" : "fare_amount",
          "type" : "double"
        }
      },
      {
        "convert" : {
          "field" : "improvement_surcharge",
          "type" : "double"
        }
      },
      {
        "convert" : {
          "field" : "mta_tax",
          "type" : "double"
        }
      },
      {
        "convert" : {
          "field" : "passenger_count",
          "type" : "long"
        }
      },
      {
        "convert" : {
          "field" : "payment_type",
          "type" : "long"
        }
      },
      {
        "convert" : {
          "field" : "tip_amount",
          "type" : "double"
        }
      },
      {
        "convert" : {
          "field" : "tolls_amount",
          "type" : "double"
        }
      },
      {
        "convert" : {
          "field" : "total_amount",
          "type" : "double"
        }
      },
      {
        "convert" : {
          "field" : "trip_distance",
          "type" : "double"
        }
      },
      {
        "remove" : {
          "field" : "message"
        }
      }
    ]
  },
  "field_stats" : {
    "DOLocationID" : {
      "count" : 19998,
      "cardinality" : 240,
      "min_value" : 1,
      "max_value" : 265,
      "mean_value" : 150.26532653265312,
      "median_value" : 148,
      "top_hits" : [
        {
          "value" : 79,
          "count" : 760
        },
        {
          "value" : 48,
          "count" : 683
        },
        {
          "value" : 68,
          "count" : 529
        },
        {
          "value" : 170,
          "count" : 506
        },
        {
          "value" : 107,
          "count" : 468
        },
        {
          "value" : 249,
          "count" : 457
        },
        {
          "value" : 230,
          "count" : 441
        },
        {
          "value" : 186,
          "count" : 432
        },
        {
          "value" : 141,
          "count" : 409
        },
        {
          "value" : 263,
          "count" : 386
        }
      ]
    },
    "PULocationID" : {
      "count" : 19998,
      "cardinality" : 154,
      "min_value" : 1,
      "max_value" : 265,
      "mean_value" : 153.4042404240424,
      "median_value" : 148,
      "top_hits" : [
        {
          "value" : 79,
          "count" : 1067
        },
        {
          "value" : 230,
          "count" : 949
        },
        {
          "value" : 148,
          "count" : 940
        },
        {
          "value" : 132,
          "count" : 897
        },
        {
          "value" : 48,
          "count" : 853
        },
        {
          "value" : 161,
          "count" : 820
        },
        {
          "value" : 234,
          "count" : 750
        },
        {
          "value" : 249,
          "count" : 722
        },
        {
          "value" : 164,
          "count" : 663
        },
        {
          "value" : 114,
          "count" : 646
        }
      ]
    },
    "RatecodeID" : {
      "count" : 19998,
      "cardinality" : 5,
      "min_value" : 1,
      "max_value" : 5,
      "mean_value" : 1.0656565656565653,
      "median_value" : 1,
      "top_hits" : [
        {
          "value" : 1,
          "count" : 19311
        },
        {
          "value" : 2,
          "count" : 468
        },
        {
          "value" : 5,
          "count" : 195
        },
        {
          "value" : 4,
          "count" : 17
        },
        {
          "value" : 3,
          "count" : 7
        }
      ]
    },
    "VendorID" : {
      "count" : 19998,
      "cardinality" : 2,
      "min_value" : 1,
      "max_value" : 2,
      "mean_value" : 1.59005900590059,
      "median_value" : 2,
      "top_hits" : [
        {
          "value" : 2,
          "count" : 11800
        },
        {
          "value" : 1,
          "count" : 8198
        }
      ]
    },
    "extra" : {
      "count" : 19998,
      "cardinality" : 3,
      "min_value" : -0.5,
      "max_value" : 0.5,
      "mean_value" : 0.4815981598159816,
      "median_value" : 0.5,
      "top_hits" : [
        {
          "value" : 0.5,
          "count" : 19281
        },
        {
          "value" : 0,
          "count" : 698
        },
        {
          "value" : -0.5,
          "count" : 19
        }
      ]
    },
    "fare_amount" : {
      "count" : 19998,
      "cardinality" : 208,
      "min_value" : -100,
      "max_value" : 300,
      "mean_value" : 13.937719771977209,
      "median_value" : 9.5,
      "top_hits" : [
        {
          "value" : 6,
          "count" : 1004
        },
        {
          "value" : 6.5,
          "count" : 935
        },
        {
          "value" : 5.5,
          "count" : 909
        },
        {
          "value" : 7,
          "count" : 903
        },
        {
          "value" : 5,
          "count" : 889
        },
        {
          "value" : 7.5,
          "count" : 854
        },
        {
          "value" : 4.5,
          "count" : 802
        },
        {
          "value" : 8.5,
          "count" : 790
        },
        {
          "value" : 8,
          "count" : 789
        },
        {
          "value" : 9,
          "count" : 711
        }
      ]
    },
    "improvement_surcharge" : {
      "count" : 19998,
      "cardinality" : 3,
      "min_value" : -0.3,
      "max_value" : 0.3,
      "mean_value" : 0.29915991599159913,
      "median_value" : 0.3,
      "top_hits" : [
        {
          "value" : 0.3,
          "count" : 19964
        },
        {
          "value" : -0.3,
          "count" : 22
        },
        {
          "value" : 0,
          "count" : 12
        }
      ]
    },
    "mta_tax" : {
      "count" : 19998,
      "cardinality" : 3,
      "min_value" : -0.5,
      "max_value" : 0.5,
      "mean_value" : 0.4962246224622462,
      "median_value" : 0.5,
      "top_hits" : [
        {
          "value" : 0.5,
          "count" : 19868
        },
        {
          "value" : 0,
          "count" : 109
        },
        {
          "value" : -0.5,
          "count" : 21
        }
      ]
    },
    "passenger_count" : {
      "count" : 19998,
      "cardinality" : 7,
      "min_value" : 0,
      "max_value" : 6,
      "mean_value" : 1.6201620162016201,
      "median_value" : 1,
      "top_hits" : [
        {
          "value" : 1,
          "count" : 14219
        },
        {
          "value" : 2,
          "count" : 2886
        },
        {
          "value" : 5,
          "count" : 1047
        },
        {
          "value" : 3,
          "count" : 804
        },
        {
          "value" : 6,
          "count" : 523
        },
        {
          "value" : 4,
          "count" : 406
        },
        {
          "value" : 0,
          "count" : 113
        }
      ]
    },
    "payment_type" : {
      "count" : 19998,
      "cardinality" : 4,
      "min_value" : 1,
      "max_value" : 4,
      "mean_value" : 1.315631563156316,
      "median_value" : 1,
      "top_hits" : [
        {
          "value" : 1,
          "count" : 13936
        },
        {
          "value" : 2,
          "count" : 5857
        },
        {
          "value" : 3,
          "count" : 160
        },
        {
          "value" : 4,
          "count" : 45
        }
      ]
    },
    "store_and_fwd_flag" : {
      "count" : 19998,
      "cardinality" : 2,
      "top_hits" : [
        {
          "value" : "N",
          "count" : 19910
        },
        {
          "value" : "Y",
          "count" : 88
        }
      ]
    },
    "tip_amount" : {
      "count" : 19998,
      "cardinality" : 717,
      "min_value" : 0,
      "max_value" : 128,
      "mean_value" : 2.010959095909593,
      "median_value" : 1.45,
      "top_hits" : [
        {
          "value" : 0,
          "count" : 6917
        },
        {
          "value" : 1,
          "count" : 1178
        },
        {
          "value" : 2,
          "count" : 624
        },
        {
          "value" : 3,
          "count" : 248
        },
        {
          "value" : 1.56,
          "count" : 206
        },
        {
          "value" : 1.46,
          "count" : 205
        },
        {
          "value" : 1.76,
          "count" : 196
        },
        {
          "value" : 1.45,
          "count" : 195
        },
        {
          "value" : 1.36,
          "count" : 191
        },
        {
          "value" : 1.5,
          "count" : 187
        }
      ]
    },
    "tolls_amount" : {
      "count" : 19998,
      "cardinality" : 26,
      "min_value" : 0,
      "max_value" : 35,
      "mean_value" : 0.2729697969796978,
      "median_value" : 0,
      "top_hits" : [
        {
          "value" : 0,
          "count" : 19107
        },
        {
          "value" : 5.76,
          "count" : 791
        },
        {
          "value" : 10.5,
          "count" : 36
        },
        {
          "value" : 2.64,
          "count" : 21
        },
        {
          "value" : 11.52,
          "count" : 8
        },
        {
          "value" : 5.54,
          "count" : 4
        },
        {
          "value" : 8.5,
          "count" : 4
        },
        {
          "value" : 17.28,
          "count" : 4
        },
        {
          "value" : 2,
          "count" : 2
        },
        {
          "value" : 2.16,
          "count" : 2
        }
      ]
    },
    "total_amount" : {
      "count" : 19998,
      "cardinality" : 1267,
      "min_value" : -100.3,
      "max_value" : 389.12,
      "mean_value" : 17.499898989898995,
      "median_value" : 12.35,
      "top_hits" : [
        {
          "value" : 7.3,
          "count" : 478
        },
        {
          "value" : 8.3,
          "count" : 443
        },
        {
          "value" : 8.8,
          "count" : 420
        },
        {
          "value" : 6.8,
          "count" : 406
        },
        {
          "value" : 7.8,
          "count" : 405
        },
        {
          "value" : 6.3,
          "count" : 371
        },
        {
          "value" : 9.8,
          "count" : 368
        },
        {
          "value" : 5.8,
          "count" : 362
        },
        {
          "value" : 9.3,
          "count" : 332
        },
        {
          "value" : 10.3,
          "count" : 332
        }
      ]
    },
    "tpep_dropoff_datetime" : {
      "count" : 19998,
      "cardinality" : 9066,
      "earliest" : "2018-05-31 06:18:15",
      "latest" : "2018-06-02 02:25:44",
      "top_hits" : [
        {
          "value" : "2018-06-01 01:12:12",
          "count" : 10
        },
        {
          "value" : "2018-06-01 00:32:15",
          "count" : 9
        },
        {
          "value" : "2018-06-01 00:44:27",
          "count" : 9
        },
        {
          "value" : "2018-06-01 00:46:42",
          "count" : 9
        },
        {
          "value" : "2018-06-01 01:03:22",
          "count" : 9
        },
        {
          "value" : "2018-06-01 01:05:13",
          "count" : 9
        },
        {
          "value" : "2018-06-01 00:11:20",
          "count" : 8
        },
        {
          "value" : "2018-06-01 00:16:03",
          "count" : 8
        },
        {
          "value" : "2018-06-01 00:19:47",
          "count" : 8
        },
        {
          "value" : "2018-06-01 00:25:17",
          "count" : 8
        }
      ]
    },
    "tpep_pickup_datetime" : {
      "count" : 19998,
      "cardinality" : 8760,
      "earliest" : "2018-05-31 06:08:31",
      "latest" : "2018-06-02 01:21:21",
      "top_hits" : [
        {
          "value" : "2018-06-01 00:01:23",
          "count" : 12
        },
        {
          "value" : "2018-06-01 00:04:31",
          "count" : 10
        },
        {
          "value" : "2018-06-01 00:05:38",
          "count" : 10
        },
        {
          "value" : "2018-06-01 00:09:50",
          "count" : 10
        },
        {
          "value" : "2018-06-01 00:12:01",
          "count" : 10
        },
        {
          "value" : "2018-06-01 00:14:17",
          "count" : 10
        },
        {
          "value" : "2018-06-01 00:00:34",
          "count" : 9
        },
        {
          "value" : "2018-06-01 00:00:40",
          "count" : 9
        },
        {
          "value" : "2018-06-01 00:02:53",
          "count" : 9
        },
        {
          "value" : "2018-06-01 00:05:40",
          "count" : 9
        }
      ]
    },
    "trip_distance" : {
      "count" : 19998,
      "cardinality" : 1687,
      "min_value" : 0,
      "max_value" : 64.63,
      "mean_value" : 3.6521062106210715,
      "median_value" : 2.16,
      "top_hits" : [
        {
          "value" : 0.9,
          "count" : 335
        },
        {
          "value" : 0.8,
          "count" : 320
        },
        {
          "value" : 1.1,
          "count" : 316
        },
        {
          "value" : 0.7,
          "count" : 304
        },
        {
          "value" : 1.2,
          "count" : 303
        },
        {
          "value" : 1,
          "count" : 296
        },
        {
          "value" : 1.3,
          "count" : 280
        },
        {
          "value" : 1.5,
          "count" : 268
        },
        {
          "value" : 1.6,
          "count" : 268
        },
        {
          "value" : 0.6,
          "count" : 256
        }
      ]
    }
  }
}

	`num_messages_analyzed` 比 `num_lines_analyzed` 小 2，因为只有数据记录才算作消息。第一行包含列名，在此示例中，第二行是空白的。
	与第一个示例不同，在这种情况下，`format` 已被标识为 `delimited`。
	因为 `format` 是 `delimited`，所以输出中的 `column_names` 字段会按它们在示例中出现的顺序列出列名。
	`has_header_row` 指示对于此示例，列名位于示例的第一行。（如果不是这样，那么最好在 `column_names` 查询参数中指定它们。）
	此示例的 `delimiter` 是逗号，因为它是 CSV 格式的文本。
	`quote` 字符是默认的双引号。（结构查找器不尝试推断任何其他引号字符，因此如果您有使用其他字符引用的分隔文本，则必须使用 `quote` 查询参数指定它。）
	`timestamp_field` 已被选择为 `tpep_pickup_datetime`。`tpep_dropoff_datetime` 也可以正常工作，但之所以选择 `tpep_pickup_datetime` 是因为它在列顺序中排在第一位。如果您更喜欢 `tpep_dropoff_datetime`，则使用 `timestamp_field` 查询参数强制选择它。
	`joda_timestamp_formats` 用于告诉 Logstash 如何解析时间戳。
	`java_timestamp_formats` 是时间字段中识别的 Java 时间格式。Elasticsearch 映射和摄取管道使用此格式。
	此示例中的时间戳格式未指定时区，因此要将其准确转换为 UTC 时间戳以存储在 Elasticsearch 中，必须提供它们所关联的时区。对于包含时区的时间戳格式，`need_client_timezone` 将为 `false`。

设置超时参数

编辑

如果您尝试分析大量数据，则分析将需要很长时间。如果您想限制 Elasticsearch 集群为请求执行的处理量，请使用 timeout 查询参数。当超时到期时，分析将中止并返回错误。例如，您可以将上一个示例中的 20000 行替换为 200000 行，并在分析中设置 1 秒的超时

curl -s "s3.amazonaws.com/nyc-tlc/trip+data/yellow_tripdata_2018-06.csv" | head -200000 | curl -s -H "Content-Type: application/json" -XPOST "localhost:9200/_text_structure/find_structure?pretty&lines_to_sample=200000&timeout=1s" -T -

除非您使用速度极快的计算机，否则您将收到超时错误

{
  "error" : {
    "root_cause" : [
      {
        "type" : "timeout_exception",
        "reason" : "Aborting structure analysis during [delimited record parsing] as it has taken longer than the timeout of [1s]"
      }
    ],
    "type" : "timeout_exception",
    "reason" : "Aborting structure analysis during [delimited record parsing] as it has taken longer than the timeout of [1s]"
  },
  "status" : 500
}

如果您自己尝试上述示例，您会注意到 curl 命令的整体运行时间明显长于 1 秒。这是因为从互联网下载 200000 行 CSV 需要一段时间，并且超时是从此端点开始处理数据时开始测量的。

分析 Elasticsearch 日志文件

编辑

这是分析 Elasticsearch 日志文件的示例

curl -s -H "Content-Type: application/json" -XPOST
"localhost:9200/_text_structure/find_structure?pretty&ecs_compatibility=disabled" -T "$ES_HOME/logs/elasticsearch.log"

如果请求没有遇到错误，结果将如下所示

{
  "num_lines_analyzed" : 53,
  "num_messages_analyzed" : 53,
  "sample_start" : "[2018-09-27T14:39:28,518][INFO ][o.e.e.NodeEnvironment    ] [node-0] using [1] data paths, mounts [[/ (/dev/disk1)]], net usable_space [165.4gb], net total_space [464.7gb], types [hfs]\n[2018-09-27T14:39:28,521][INFO ][o.e.e.NodeEnvironment    ] [node-0] heap size [494.9mb], compressed ordinary object pointers [true]\n",
  "charset" : "UTF-8",
  "has_byte_order_marker" : false,
  "format" : "semi_structured_text", 
  "multiline_start_pattern" : "^\\[\\b\\d{4}-\\d{2}-\\d{2}[T ]\\d{2}:\\d{2}", 
  "grok_pattern" : "\\[%{TIMESTAMP_ISO8601:timestamp}\\]\\[%{LOGLEVEL:loglevel}.*", 
  "ecs_compatibility" : "disabled", 
  "timestamp_field" : "timestamp",
  "joda_timestamp_formats" : [
    "ISO8601"
  ],
  "java_timestamp_formats" : [
    "ISO8601"
  ],
  "need_client_timezone" : true,
  "mappings" : {
    "properties" : {
      "@timestamp" : {
        "type" : "date"
      },
      "loglevel" : {
        "type" : "keyword"
      },
      "message" : {
        "type" : "text"
      }
    }
  },
  "ingest_pipeline" : {
    "description" : "Ingest pipeline created by text structure finder",
    "processors" : [
      {
        "grok" : {
          "field" : "message",
          "patterns" : [
            "\\[%{TIMESTAMP_ISO8601:timestamp}\\]\\[%{LOGLEVEL:loglevel}.*"
          ]
        }
      },
      {
        "date" : {
          "field" : "timestamp",
          "timezone" : "{{ event.timezone }}",
          "formats" : [
            "ISO8601"
          ]
        }
      },
      {
        "remove" : {
          "field" : "timestamp"
        }
      }
    ]
  },
  "field_stats" : {
    "loglevel" : {
      "count" : 53,
      "cardinality" : 3,
      "top_hits" : [
        {
          "value" : "INFO",
          "count" : 51
        },
        {
          "value" : "DEBUG",
          "count" : 1
        },
        {
          "value" : "WARN",
          "count" : 1
        }
      ]
    },
    "timestamp" : {
      "count" : 53,
      "cardinality" : 28,
      "earliest" : "2018-09-27T14:39:28,518",
      "latest" : "2018-09-27T14:39:37,012",
      "top_hits" : [
        {
          "value" : "2018-09-27T14:39:29,859",
          "count" : 10
        },
        {
          "value" : "2018-09-27T14:39:29,860",
          "count" : 9
        },
        {
          "value" : "2018-09-27T14:39:29,858",
          "count" : 6
        },
        {
          "value" : "2018-09-27T14:39:28,523",
          "count" : 3
        },
        {
          "value" : "2018-09-27T14:39:34,234",
          "count" : 2
        },
        {
          "value" : "2018-09-27T14:39:28,518",
          "count" : 1
        },
        {
          "value" : "2018-09-27T14:39:28,521",
          "count" : 1
        },
        {
          "value" : "2018-09-27T14:39:28,522",
          "count" : 1
        },
        {
          "value" : "2018-09-27T14:39:29,861",
          "count" : 1
        },
        {
          "value" : "2018-09-27T14:39:32,786",
          "count" : 1
        }
      ]
    }
  }
}

	这次，`format` 已被标识为 `semi_structured_text`。
	`multiline_start_pattern` 的设置基于时间戳出现在每个多行日志消息的第一行。
	创建了一个非常简单的 `grok_pattern`，它会提取时间戳和出现在每个分析消息中的可识别字段。在这种情况下，除了时间戳之外，唯一被识别的字段是日志级别。
	所使用的 ECS Grok 模式兼容性模式可以是 `disabled`（如果在请求中未指定则为默认值）或 `v1` 中的一个

将 `grok_pattern` 指定为查询参数

编辑

如果您识别出的字段比结构查找器在没有辅助的情况下生成的简单 grok_pattern 多，则可以重新提交请求，并将更高级的 grok_pattern 指定为查询参数，结构查找器将为您的其他字段计算 field_stats。

对于 Elasticsearch 日志，更完整的 Grok 模式是 \[%{TIMESTAMP_ISO8601:timestamp}\]\[%{LOGLEVEL:loglevel} *\]\[%{JAVACLASS:class} *\] \[%{HOSTNAME:node}\] %{JAVALOGMESSAGE:message}。您可以再次分析相同的文本，将此 grok_pattern 作为查询参数（适当地 URL 转义）提交

curl -s -H "Content-Type: application/json" -XPOST "localhost:9200/_text_structure/find_structure?pretty&format=semi_structured_text&grok_pattern=%5C%5B%25%7BTIMESTAMP_ISO8601:timestamp%7D%5C%5D%5C%5B%25%7BLOGLEVEL:loglevel%7D%20*%5C%5D%5C%5B%25%7BJAVACLASS:class%7D%20*%5C%5D%20%5C%5B%25%7BHOSTNAME:node%7D%5C%5D%20%25%7BJAVALOGMESSAGE:message%7D" -T "$ES_HOME/logs/elasticsearch.log"

如果请求没有遇到错误，结果将如下所示

{
  "num_lines_analyzed" : 53,
  "num_messages_analyzed" : 53,
  "sample_start" : "[2018-09-27T14:39:28,518][INFO ][o.e.e.NodeEnvironment    ] [node-0] using [1] data paths, mounts [[/ (/dev/disk1)]], net usable_space [165.4gb], net total_space [464.7gb], types [hfs]\n[2018-09-27T14:39:28,521][INFO ][o.e.e.NodeEnvironment    ] [node-0] heap size [494.9mb], compressed ordinary object pointers [true]\n",
  "charset" : "UTF-8",
  "has_byte_order_marker" : false,
  "format" : "semi_structured_text",
  "multiline_start_pattern" : "^\\[\\b\\d{4}-\\d{2}-\\d{2}[T ]\\d{2}:\\d{2}",
  "grok_pattern" : "\\[%{TIMESTAMP_ISO8601:timestamp}\\]\\[%{LOGLEVEL:loglevel} *\\]\\[%{JAVACLASS:class} *\\] \\[%{HOSTNAME:node}\\] %{JAVALOGMESSAGE:message}", 
  "ecs_compatibility" : "disabled", 
  "timestamp_field" : "timestamp",
  "joda_timestamp_formats" : [
    "ISO8601"
  ],
  "java_timestamp_formats" : [
    "ISO8601"
  ],
  "need_client_timezone" : true,
  "mappings" : {
    "properties" : {
      "@timestamp" : {
        "type" : "date"
      },
      "class" : {
        "type" : "keyword"
      },
      "loglevel" : {
        "type" : "keyword"
      },
      "message" : {
        "type" : "text"
      },
      "node" : {
        "type" : "keyword"
      }
    }
  },
  "ingest_pipeline" : {
    "description" : "Ingest pipeline created by text structure finder",
    "processors" : [
      {
        "grok" : {
          "field" : "message",
          "patterns" : [
            "\\[%{TIMESTAMP_ISO8601:timestamp}\\]\\[%{LOGLEVEL:loglevel} *\\]\\[%{JAVACLASS:class} *\\] \\[%{HOSTNAME:node}\\] %{JAVALOGMESSAGE:message}"
          ]
        }
      },
      {
        "date" : {
          "field" : "timestamp",
          "timezone" : "{{ event.timezone }}",
          "formats" : [
            "ISO8601"
          ]
        }
      },
      {
        "remove" : {
          "field" : "timestamp"
        }
      }
    ]
  },
  "field_stats" : { 
    "class" : {
      "count" : 53,
      "cardinality" : 14,
      "top_hits" : [
        {
          "value" : "o.e.p.PluginsService",
          "count" : 26
        },
        {
          "value" : "o.e.c.m.MetadataIndexTemplateService",
          "count" : 8
        },
        {
          "value" : "o.e.n.Node",
          "count" : 7
        },
        {
          "value" : "o.e.e.NodeEnvironment",
          "count" : 2
        },
        {
          "value" : "o.e.a.ActionModule",
          "count" : 1
        },
        {
          "value" : "o.e.c.s.ClusterApplierService",
          "count" : 1
        },
        {
          "value" : "o.e.c.s.MasterService",
          "count" : 1
        },
        {
          "value" : "o.e.d.DiscoveryModule",
          "count" : 1
        },
        {
          "value" : "o.e.g.GatewayService",
          "count" : 1
        },
        {
          "value" : "o.e.l.LicenseService",
          "count" : 1
        }
      ]
    },
    "loglevel" : {
      "count" : 53,
      "cardinality" : 3,
      "top_hits" : [
        {
          "value" : "INFO",
          "count" : 51
        },
        {
          "value" : "DEBUG",
          "count" : 1
        },
        {
          "value" : "WARN",
          "count" : 1
        }
      ]
    },
    "message" : {
      "count" : 53,
      "cardinality" : 53,
      "top_hits" : [
        {
          "value" : "Using REST wrapper from plugin org.elasticsearch.xpack.security.Security",
          "count" : 1
        },
        {
          "value" : "adding template [.monitoring-alerts] for index patterns [.monitoring-alerts-6]",
          "count" : 1
        },
        {
          "value" : "adding template [.monitoring-beats] for index patterns [.monitoring-beats-6-*]",
          "count" : 1
        },
        {
          "value" : "adding template [.monitoring-es] for index patterns [.monitoring-es-6-*]",
          "count" : 1
        },
        {
          "value" : "adding template [.monitoring-kibana] for index patterns [.monitoring-kibana-6-*]",
          "count" : 1
        },
        {
          "value" : "adding template [.monitoring-logstash] for index patterns [.monitoring-logstash-6-*]",
          "count" : 1
        },
        {
          "value" : "adding template [.triggered_watches] for index patterns [.triggered_watches*]",
          "count" : 1
        },
        {
          "value" : "adding template [.watch-history-9] for index patterns [.watcher-history-9*]",
          "count" : 1
        },
        {
          "value" : "adding template [.watches] for index patterns [.watches*]",
          "count" : 1
        },
        {
          "value" : "starting ...",
          "count" : 1
        }
      ]
    },
    "node" : {
      "count" : 53,
      "cardinality" : 1,
      "top_hits" : [
        {
          "value" : "node-0",
          "count" : 53
        }
      ]
    },
    "timestamp" : {
      "count" : 53,
      "cardinality" : 28,
      "earliest" : "2018-09-27T14:39:28,518",
      "latest" : "2018-09-27T14:39:37,012",
      "top_hits" : [
        {
          "value" : "2018-09-27T14:39:29,859",
          "count" : 10
        },
        {
          "value" : "2018-09-27T14:39:29,860",
          "count" : 9
        },
        {
          "value" : "2018-09-27T14:39:29,858",
          "count" : 6
        },
        {
          "value" : "2018-09-27T14:39:28,523",
          "count" : 3
        },
        {
          "value" : "2018-09-27T14:39:34,234",
          "count" : 2
        },
        {
          "value" : "2018-09-27T14:39:28,518",
          "count" : 1
        },
        {
          "value" : "2018-09-27T14:39:28,521",
          "count" : 1
        },
        {
          "value" : "2018-09-27T14:39:28,522",
          "count" : 1
        },
        {
          "value" : "2018-09-27T14:39:29,861",
          "count" : 1
        },
        {
          "value" : "2018-09-27T14:39:32,786",
          "count" : 1
        }
      ]
    }
  }
}

	输出中的 `grok_pattern` 现在是查询参数中提供的被覆盖的模式。
	所使用的 ECS Grok 模式兼容性模式可以是 `disabled`（如果在请求中未指定则为默认值）或 `v1` 中的一个
	返回的 `field_stats` 包括来自被覆盖的 `grok_pattern` 的字段的条目。

URL 转义很困难，因此如果您以交互方式工作，最好使用 UI！

« 查找消息结构 API 测试 Grok 模式 API »

On this page

请求
先决条件
描述
查询参数
请求正文
示例
摄取换行符分隔的 JSON
查找纽约市出租车示例数据的结构
设置超时参数
分析 Elasticsearch 日志文件
将 grok_pattern 指定为查询参数

Was this helpful?

Feedback

The Search AI Company

ELK Stack

Elastic Cloud

Generative AI

Search

Security

Observability

By solution

Industries

Customer spotlight

Research

Build

Learn

Connect

查找文本结构 API

查找文本结构 API

请求

先决条件

描述

查询参数

请求正文

示例

摄取换行符分隔的 JSON

查找纽约市出租车示例数据的结构

设置超时参数

分析 Elasticsearch 日志文件

将 `grok_pattern` 指定为查询参数

Follow us

About us

Join us

Partners

Trust & Security

Investor relations

Excellence Awards

About us

Join us

Partners

Trust & Security

Investor relations

Excellence Awards

The Search AI Company

Generative AI

Search

Security

Observability

By solution

Industries

查找文本结构 API

查找文本结构 API

请求

先决条件

描述

查询参数

请求正文

示例

摄取换行符分隔的 JSON

查找纽约市出租车示例数据的结构

设置超时参数

分析 Elasticsearch 日志文件

将 grok_pattern 指定为查询参数

Follow us

About us

Join us

Partners

Trust & Security

Investor relations

Excellence Awards

将 `grok_pattern` 指定为查询参数