- Elasticsearch 指南其他版本
- 8.17 中的新功能
- Elasticsearch 基础
- 快速入门
- 设置 Elasticsearch
- 升级 Elasticsearch
- 索引模块
- 映射
- 文本分析
- 索引模板
- 数据流
- 摄取管道
- 别名
- 搜索您的数据
- 重新排名
- 查询 DSL
- 聚合
- 地理空间分析
- 连接器
- EQL
- ES|QL
- SQL
- 脚本
- 数据管理
- 自动缩放
- 监视集群
- 汇总或转换数据
- 设置高可用性集群
- 快照和还原
- 保护 Elastic Stack 的安全
- Watcher
- 命令行工具
- elasticsearch-certgen
- elasticsearch-certutil
- elasticsearch-create-enrollment-token
- elasticsearch-croneval
- elasticsearch-keystore
- elasticsearch-node
- elasticsearch-reconfigure-node
- elasticsearch-reset-password
- elasticsearch-saml-metadata
- elasticsearch-service-tokens
- elasticsearch-setup-passwords
- elasticsearch-shard
- elasticsearch-syskeygen
- elasticsearch-users
- 优化
- 故障排除
- 修复常见的集群问题
- 诊断未分配的分片
- 向系统中添加丢失的层
- 允许 Elasticsearch 在系统中分配数据
- 允许 Elasticsearch 分配索引
- 索引将索引分配过滤器与数据层节点角色混合,以在数据层之间移动
- 没有足够的节点来分配所有分片副本
- 单个节点上索引的分片总数已超过
- 每个节点的分片总数已达到
- 故障排除损坏
- 修复磁盘空间不足的数据节点
- 修复磁盘空间不足的主节点
- 修复磁盘空间不足的其他角色节点
- 启动索引生命周期管理
- 启动快照生命周期管理
- 从快照恢复
- 故障排除损坏的存储库
- 解决重复的快照策略失败问题
- 故障排除不稳定的集群
- 故障排除发现
- 故障排除监控
- 故障排除转换
- 故障排除 Watcher
- 故障排除搜索
- 故障排除分片容量健康问题
- 故障排除不平衡的集群
- 捕获诊断信息
- REST API
- API 约定
- 通用选项
- REST API 兼容性
- 自动缩放 API
- 行为分析 API
- 紧凑和对齐文本 (CAT) API
- 集群 API
- 跨集群复制 API
- 连接器 API
- 数据流 API
- 文档 API
- 丰富 API
- EQL API
- ES|QL API
- 功能 API
- Fleet API
- 图表探索 API
- 索引 API
- 别名是否存在
- 别名
- 分析
- 分析索引磁盘使用量
- 清除缓存
- 克隆索引
- 关闭索引
- 创建索引
- 创建或更新别名
- 创建或更新组件模板
- 创建或更新索引模板
- 创建或更新索引模板(旧版)
- 删除组件模板
- 删除悬挂索引
- 删除别名
- 删除索引
- 删除索引模板
- 删除索引模板(旧版)
- 存在
- 字段使用情况统计信息
- 刷新
- 强制合并
- 获取别名
- 获取组件模板
- 获取字段映射
- 获取索引
- 获取索引设置
- 获取索引模板
- 获取索引模板(旧版)
- 获取映射
- 导入悬挂索引
- 索引恢复
- 索引段
- 索引分片存储
- 索引统计信息
- 索引模板是否存在(旧版)
- 列出悬挂索引
- 打开索引
- 刷新
- 解析索引
- 解析集群
- 翻转
- 收缩索引
- 模拟索引
- 模拟模板
- 拆分索引
- 解冻索引
- 更新索引设置
- 更新映射
- 索引生命周期管理 API
- 推理 API
- 信息 API
- 摄取 API
- 许可 API
- Logstash API
- 机器学习 API
- 机器学习异常检测 API
- 机器学习数据帧分析 API
- 机器学习训练模型 API
- 迁移 API
- 节点生命周期 API
- 查询规则 API
- 重新加载搜索分析器 API
- 存储库计量 API
- 汇总 API
- 根 API
- 脚本 API
- 搜索 API
- 搜索应用程序 API
- 可搜索快照 API
- 安全 API
- 身份验证
- 更改密码
- 清除缓存
- 清除角色缓存
- 清除权限缓存
- 清除 API 密钥缓存
- 清除服务帐户令牌缓存
- 创建 API 密钥
- 创建或更新应用程序权限
- 创建或更新角色映射
- 创建或更新角色
- 批量创建或更新角色 API
- 批量删除角色 API
- 创建或更新用户
- 创建服务帐户令牌
- 委托 PKI 身份验证
- 删除应用程序权限
- 删除角色映射
- 删除角色
- 删除服务帐户令牌
- 删除用户
- 禁用用户
- 启用用户
- 注册 Kibana
- 注册节点
- 获取 API 密钥信息
- 获取应用程序权限
- 获取内置权限
- 获取角色映射
- 获取角色
- 查询角色
- 获取服务帐户
- 获取服务帐户凭据
- 获取安全设置
- 获取令牌
- 获取用户权限
- 获取用户
- 授予 API 密钥
- 具有权限
- 使 API 密钥失效
- 使令牌失效
- OpenID Connect 准备身份验证
- OpenID Connect 身份验证
- OpenID Connect 注销
- 查询 API 密钥信息
- 查询用户
- 更新 API 密钥
- 更新安全设置
- 批量更新 API 密钥
- SAML 准备身份验证
- SAML 身份验证
- SAML 注销
- SAML 失效
- SAML 完成注销
- SAML 服务提供商元数据
- SSL 证书
- 激活用户配置文件
- 禁用用户配置文件
- 启用用户配置文件
- 获取用户配置文件
- 建议用户配置文件
- 更新用户配置文件数据
- 具有用户配置文件权限
- 创建跨集群 API 密钥
- 更新跨集群 API 密钥
- 快照和还原 API
- 快照生命周期管理 API
- SQL API
- 同义词 API
- 文本结构 API
- 转换 API
- 使用情况 API
- Watcher API
- 定义
- 迁移指南
- 发行说明
- Elasticsearch 版本 8.17.0
- Elasticsearch 版本 8.16.1
- Elasticsearch 版本 8.16.0
- Elasticsearch 版本 8.15.5
- Elasticsearch 版本 8.15.4
- Elasticsearch 版本 8.15.3
- Elasticsearch 版本 8.15.2
- Elasticsearch 版本 8.15.1
- Elasticsearch 版本 8.15.0
- Elasticsearch 版本 8.14.3
- Elasticsearch 版本 8.14.2
- Elasticsearch 版本 8.14.1
- Elasticsearch 版本 8.14.0
- Elasticsearch 版本 8.13.4
- Elasticsearch 版本 8.13.3
- Elasticsearch 版本 8.13.2
- Elasticsearch 版本 8.13.1
- Elasticsearch 版本 8.13.0
- Elasticsearch 版本 8.12.2
- Elasticsearch 版本 8.12.1
- Elasticsearch 版本 8.12.0
- Elasticsearch 版本 8.11.4
- Elasticsearch 版本 8.11.3
- Elasticsearch 版本 8.11.2
- Elasticsearch 版本 8.11.1
- Elasticsearch 版本 8.11.0
- Elasticsearch 版本 8.10.4
- Elasticsearch 版本 8.10.3
- Elasticsearch 版本 8.10.2
- Elasticsearch 版本 8.10.1
- Elasticsearch 版本 8.10.0
- Elasticsearch 版本 8.9.2
- Elasticsearch 版本 8.9.1
- Elasticsearch 版本 8.9.0
- Elasticsearch 版本 8.8.2
- Elasticsearch 版本 8.8.1
- Elasticsearch 版本 8.8.0
- Elasticsearch 版本 8.7.1
- Elasticsearch 版本 8.7.0
- Elasticsearch 版本 8.6.2
- Elasticsearch 版本 8.6.1
- Elasticsearch 版本 8.6.0
- Elasticsearch 版本 8.5.3
- Elasticsearch 版本 8.5.2
- Elasticsearch 版本 8.5.1
- Elasticsearch 版本 8.5.0
- Elasticsearch 版本 8.4.3
- Elasticsearch 版本 8.4.2
- Elasticsearch 版本 8.4.1
- Elasticsearch 版本 8.4.0
- Elasticsearch 版本 8.3.3
- Elasticsearch 版本 8.3.2
- Elasticsearch 版本 8.3.1
- Elasticsearch 版本 8.3.0
- Elasticsearch 版本 8.2.3
- Elasticsearch 版本 8.2.2
- Elasticsearch 版本 8.2.1
- Elasticsearch 版本 8.2.0
- Elasticsearch 版本 8.1.3
- Elasticsearch 版本 8.1.2
- Elasticsearch 版本 8.1.1
- Elasticsearch 版本 8.1.0
- Elasticsearch 版本 8.0.1
- Elasticsearch 版本 8.0.0
- Elasticsearch 版本 8.0.0-rc2
- Elasticsearch 版本 8.0.0-rc1
- Elasticsearch 版本 8.0.0-beta1
- Elasticsearch 版本 8.0.0-alpha2
- Elasticsearch 版本 8.0.0-alpha1
- 依赖项和版本
词语分隔图标记过滤器
编辑词语分隔图标记过滤器
编辑在非字母数字字符处分割标记。word_delimiter_graph
过滤器还根据一组规则执行可选的标记规范化。默认情况下,过滤器使用以下规则:
- 在非字母数字字符处分割标记。过滤器使用这些字符作为分隔符。例如:
Super-Duper
→Super
,Duper
- 删除每个标记开头或结尾的分隔符。例如:
XL---42+'Autocoder'
→XL
,42
,Autocoder
- 在字母大小写转换处分割标记。例如:
PowerShot
→Power
,Shot
- 在字母-数字转换处分割标记。例如:
XL500
→XL
,500
- 删除每个标记末尾的英语所有格 (
's
)。例如:Neil's
→Neil
word_delimiter_graph
过滤器使用 Lucene 的 WordDelimiterGraphFilter。
word_delimiter_graph
过滤器旨在删除复杂标识符(例如产品 ID 或零件号)中的标点符号。对于这些用例,我们建议将 word_delimiter_graph
过滤器与 keyword
分词器一起使用。
避免使用 word_delimiter_graph
过滤器分割连字符单词,例如 wi-fi
。由于用户经常搜索带有和不带有连字符的这些单词,我们建议改用 synonym_graph
过滤器。
示例
编辑以下 analyze API 请求使用 word_delimiter_graph
过滤器,根据过滤器的默认规则将 Neil's-Super-Duper-XL500--42+AutoCoder
分割成规范化的标记
resp = client.indices.analyze( tokenizer="keyword", filter=[ "word_delimiter_graph" ], text="Neil's-Super-Duper-XL500--42+AutoCoder", ) print(resp)
response = client.indices.analyze( body: { tokenizer: 'keyword', filter: [ 'word_delimiter_graph' ], text: "Neil's-Super-Duper-XL500--42+AutoCoder" } ) puts response
const response = await client.indices.analyze({ tokenizer: "keyword", filter: ["word_delimiter_graph"], text: "Neil's-Super-Duper-XL500--42+AutoCoder", }); console.log(response);
GET /_analyze { "tokenizer": "keyword", "filter": [ "word_delimiter_graph" ], "text": "Neil's-Super-Duper-XL500--42+AutoCoder" }
过滤器生成以下标记
[ Neil, Super, Duper, XL, 500, 42, Auto, Coder ]
添加到分析器
编辑以下 create index API 请求使用 word_delimiter_graph
过滤器配置一个新的 自定义分析器。
resp = client.indices.create( index="my-index-000001", settings={ "analysis": { "analyzer": { "my_analyzer": { "tokenizer": "keyword", "filter": [ "word_delimiter_graph" ] } } } }, ) print(resp)
response = client.indices.create( index: 'my-index-000001', body: { settings: { analysis: { analyzer: { my_analyzer: { tokenizer: 'keyword', filter: [ 'word_delimiter_graph' ] } } } } } ) puts response
const response = await client.indices.create({ index: "my-index-000001", settings: { analysis: { analyzer: { my_analyzer: { tokenizer: "keyword", filter: ["word_delimiter_graph"], }, }, }, }, }); console.log(response);
PUT /my-index-000001 { "settings": { "analysis": { "analyzer": { "my_analyzer": { "tokenizer": "keyword", "filter": [ "word_delimiter_graph" ] } } } } }
避免将 word_delimiter_graph
过滤器与删除标点符号的分词器(例如 standard
分词器)一起使用。这可能会阻止 word_delimiter_graph
过滤器正确分割标记。它还可能会干扰过滤器的可配置参数,例如 catenate_all
或 preserve_original
。我们建议改用 keyword
或 whitespace
分词器。
可配置参数
编辑-
adjust_offsets
-
(可选,布尔值)如果为
true
,则过滤器调整分割或连接标记的偏移量,以更好地反映它们在标记流中的实际位置。默认为true
。如果你的分析器使用了过滤器(例如
trim
过滤器),这些过滤器会更改标记的长度而不更改其偏移量,请将adjust_offsets
设置为false
。否则,word_delimiter_graph
过滤器可能会生成具有非法偏移量的标记。
-
catenate_all
-
(可选,布尔值)如果为
true
,则过滤器会为非字母分隔符分隔的字母数字字符链生成连接的标记。例如:super-duper-xl-500
→ [superduperxl500
,super
,duper
,xl
,500
]。默认为false
。将此参数设置为
true
会生成多位置标记,索引不支持多位置标记。如果此参数为
true
,请避免在索引分析器中使用此过滤器,或者在此过滤器之后使用flatten_graph
过滤器,以使标记流适合索引。当用于搜索分析时,连接的标记可能会给
match_phrase
查询和其他依赖标记位置进行匹配的查询带来问题。如果你计划使用这些查询,请避免将此参数设置为true
。
-
catenate_numbers
-
(可选,布尔值)如果为
true
,则过滤器会为非字母分隔符分隔的数字字符链生成连接的标记。例如:01-02-03
→ [010203
,01
,02
,03
]。默认为false
。将此参数设置为
true
会生成多位置标记,索引不支持多位置标记。如果此参数为
true
,请避免在索引分析器中使用此过滤器,或者在此过滤器之后使用flatten_graph
过滤器,以使标记流适合索引。当用于搜索分析时,连接的标记可能会给
match_phrase
查询和其他依赖标记位置进行匹配的查询带来问题。如果你计划使用这些查询,请避免将此参数设置为true
。
-
catenate_words
-
(可选,布尔值)如果为
true
,则过滤器会为非字母分隔符分隔的字母字符链生成连接的标记。例如:super-duper-xl
→ [superduperxl
,super
,duper
,xl
]。默认为false
。将此参数设置为
true
会生成多位置标记,索引不支持多位置标记。如果此参数为
true
,请避免在索引分析器中使用此过滤器,或者在此过滤器之后使用flatten_graph
过滤器,以使标记流适合索引。当用于搜索分析时,连接的标记可能会给
match_phrase
查询和其他依赖标记位置进行匹配的查询带来问题。如果你计划使用这些查询,请避免将此参数设置为true
。 -
generate_number_parts
- (可选,布尔值)如果为
true
,则过滤器会在输出中包含仅由数字字符组成的标记。如果为false
,则过滤器会将这些标记从输出中排除。默认为true
。 -
generate_word_parts
- (可选,布尔值)如果为
true
,则过滤器会在输出中包含仅由字母字符组成的标记。如果为false
,则过滤器会将这些标记从输出中排除。默认为true
。 -
ignore_keywords
- (可选,布尔值)如果为
true
,则过滤器会跳过keyword
属性为true
的标记。默认为false
。
-
preserve_original
-
(可选,布尔值)如果为
true
,则过滤器会在输出中包含任何分割标记的原始版本。此原始版本包含非字母数字分隔符。例如:super-duper-xl-500
→ [super-duper-xl-500
,super
,duper
,xl
,500
]。默认为false
。将此参数设置为
true
会生成多位置标记,索引不支持多位置标记。如果此参数为
true
,请避免在索引分析器中使用此过滤器,或者在此过滤器之后使用flatten_graph
过滤器,以使标记流适合索引。 -
protected_words
- (可选,字符串数组)过滤器不会分割的标记的数组。
-
protected_words_path
-
(可选,字符串)包含过滤器不会分割的标记列表的文件的路径。
此路径必须是绝对路径或相对于
config
位置的路径,并且文件必须是 UTF-8 编码。文件中的每个标记必须以换行符分隔。 -
split_on_case_change
- (可选,布尔值)如果为
true
,则过滤器会在字母大小写转换处分割标记。例如:camelCase
→ [camel
,Case
]。默认为true
。 -
split_on_numerics
- (可选,布尔值)如果为
true
,则过滤器会在字母-数字转换处分割标记。例如:j2se
→ [j
,2
,se
]。默认为true
。 -
stem_english_possessive
- (可选,布尔值)如果为
true
,则过滤器会删除每个标记末尾的英语所有格 ('s
)。例如:O'Neil's
→ [O
,Neil
]。默认为true
。 -
type_table
-
(可选,字符串数组)字符的自定义类型映射的数组。这允许你将非字母数字字符映射为数字或字母数字,以避免在这些字符上分割。
例如,以下数组将加号 (
+
) 和连字符 (-
) 字符映射为字母数字,这意味着它们不会被视为分隔符[ "+ => ALPHA", "- => ALPHA" ]
支持的类型包括
-
ALPHA
(字母) -
ALPHANUM
(字母数字) -
DIGIT
(数字) -
LOWER
(小写字母) -
SUBWORD_DELIM
(非字母数字分隔符) -
UPPER
(大写字母)
-
-
type_table_path
-
(可选,字符串)包含字符的自定义类型映射的文件的路径。这允许你将非字母数字字符映射为数字或字母数字,以避免在这些字符上分割。
例如,此文件的内容可能包含以下内容
# Map the $, %, '.', and ',' characters to DIGIT # This might be useful for financial data. $ => DIGIT % => DIGIT . => DIGIT \\u002C => DIGIT # in some cases you might not want to split on ZWJ # this also tests the case where we need a bigger byte[] # see https://en.wikipedia.org/wiki/Zero-width_joiner \\u200D => ALPHANUM
支持的类型包括
-
ALPHA
(字母) -
ALPHANUM
(字母数字) -
DIGIT
(数字) -
LOWER
(小写字母) -
SUBWORD_DELIM
(非字母数字分隔符) -
UPPER
(大写字母)
此文件路径必须是绝对路径或相对于
config
位置的路径,并且文件必须是 UTF-8 编码。文件中的每个映射必须以换行符分隔。 -
自定义
编辑要自定义 word_delimiter_graph
过滤器,请复制它以创建一个新的自定义标记过滤器的基础。你可以使用其可配置参数修改过滤器。
例如,以下请求创建一个 word_delimiter_graph
过滤器,该过滤器使用以下规则
- 在非字母数字字符处分割标记,除了 连字符 (
-
) 字符。 - 删除每个标记开头或结尾的分隔符。
- 不要在字母大小写转换处分割标记。
- 不要在字母-数字转换处分割标记。
- 删除每个标记末尾的英语所有格 (
's
)。
resp = client.indices.create( index="my-index-000001", settings={ "analysis": { "analyzer": { "my_analyzer": { "tokenizer": "keyword", "filter": [ "my_custom_word_delimiter_graph_filter" ] } }, "filter": { "my_custom_word_delimiter_graph_filter": { "type": "word_delimiter_graph", "type_table": [ "- => ALPHA" ], "split_on_case_change": False, "split_on_numerics": False, "stem_english_possessive": True } } } }, ) print(resp)
response = client.indices.create( index: 'my-index-000001', body: { settings: { analysis: { analyzer: { my_analyzer: { tokenizer: 'keyword', filter: [ 'my_custom_word_delimiter_graph_filter' ] } }, filter: { my_custom_word_delimiter_graph_filter: { type: 'word_delimiter_graph', type_table: [ '- => ALPHA' ], split_on_case_change: false, split_on_numerics: false, stem_english_possessive: true } } } } } ) puts response
const response = await client.indices.create({ index: "my-index-000001", settings: { analysis: { analyzer: { my_analyzer: { tokenizer: "keyword", filter: ["my_custom_word_delimiter_graph_filter"], }, }, filter: { my_custom_word_delimiter_graph_filter: { type: "word_delimiter_graph", type_table: ["- => ALPHA"], split_on_case_change: false, split_on_numerics: false, stem_english_possessive: true, }, }, }, }, }); console.log(response);
PUT /my-index-000001 { "settings": { "analysis": { "analyzer": { "my_analyzer": { "tokenizer": "keyword", "filter": [ "my_custom_word_delimiter_graph_filter" ] } }, "filter": { "my_custom_word_delimiter_graph_filter": { "type": "word_delimiter_graph", "type_table": [ "- => ALPHA" ], "split_on_case_change": false, "split_on_numerics": false, "stem_english_possessive": true } } } } }
word_delimiter_graph
和 word_delimiter
之间的差异
编辑当以下任何参数为 true
时,word_delimiter_graph
和 word_delimiter
过滤器都会生成跨越多个位置的标记:
但是,只有 word_delimiter_graph
过滤器才会为多位置标记分配一个 positionLength
属性,该属性指示标记跨越的位置数。这确保 word_delimiter_graph
过滤器始终生成有效的 标记图。
word_delimiter
过滤器不会为多位置标记分配 positionLength
属性。这意味着它会为包含这些标记的流生成无效的图。
虽然索引不支持包含多位置标记的标记图,但诸如 match_phrase
查询之类的查询可以使用这些图从单个查询字符串生成多个子查询。
要查看 word_delimiter
和 word_delimiter_graph
过滤器生成的标记图有何不同,请查看以下示例。
示例
当以下参数为 false
时,word_delimiter
和 word_delimiter_graph
都会为 PowerShot2000
生成以下标记图:
此图不包含多位置标记。所有标记仅跨越一个位置。
带有多个位置标记的 word_delimiter_graph
图
当 catenate_words
为 true
时,word_delimiter_graph
过滤器为 PowerShot2000
生成以下标记图。
此图正确地指示了连接的 PowerShot
标记跨越两个位置。
当 catenate_words
为 true
时,word_delimiter
过滤器为 PowerShot2000
生成以下标记图。
请注意,连接的 PowerShot
标记应该跨越两个位置,但它在标记图中只跨越一个位置,这使其无效。