边缘 n-gram 分词过滤器
编辑边缘 n-gram 分词过滤器
编辑从令牌的开头形成指定长度的 n-gram。
例如,您可以使用 edge_ngram
分词过滤器将 quick
更改为 qu
。
在未自定义的情况下,过滤器默认创建 1 个字符的边缘 n-gram。
此过滤器使用 Lucene 的 EdgeNGramTokenFilter。
edge_ngram
过滤器类似于 ngram
分词过滤器。但是,edge_ngram
仅输出从令牌开头开始的 n-gram。这些边缘 n-gram 对于 边输入边搜索 查询很有用。
示例
编辑以下 分析 API 请求使用 edge_ngram
过滤器将 the quick brown fox jumps
转换为 1 个字符和 2 个字符的边缘 n-gram。
resp = client.indices.analyze( tokenizer="standard", filter=[ { "type": "edge_ngram", "min_gram": 1, "max_gram": 2 } ], text="the quick brown fox jumps", ) print(resp)
response = client.indices.analyze( body: { tokenizer: 'standard', filter: [ { type: 'edge_ngram', min_gram: 1, max_gram: 2 } ], text: 'the quick brown fox jumps' } ) puts response
const response = await client.indices.analyze({ tokenizer: "standard", filter: [ { type: "edge_ngram", min_gram: 1, max_gram: 2, }, ], text: "the quick brown fox jumps", }); console.log(response);
GET _analyze { "tokenizer": "standard", "filter": [ { "type": "edge_ngram", "min_gram": 1, "max_gram": 2 } ], "text": "the quick brown fox jumps" }
过滤器生成以下令牌:
[ t, th, q, qu, b, br, f, fo, j, ju ]
添加到分析器
编辑以下 创建索引 API 请求使用 edge_ngram
过滤器配置新的 自定义分析器。
resp = client.indices.create( index="edge_ngram_example", settings={ "analysis": { "analyzer": { "standard_edge_ngram": { "tokenizer": "standard", "filter": [ "edge_ngram" ] } } } }, ) print(resp)
response = client.indices.create( index: 'edge_ngram_example', body: { settings: { analysis: { analyzer: { standard_edge_ngram: { tokenizer: 'standard', filter: [ 'edge_ngram' ] } } } } } ) puts response
const response = await client.indices.create({ index: "edge_ngram_example", settings: { analysis: { analyzer: { standard_edge_ngram: { tokenizer: "standard", filter: ["edge_ngram"], }, }, }, }, }); console.log(response);
PUT edge_ngram_example { "settings": { "analysis": { "analyzer": { "standard_edge_ngram": { "tokenizer": "standard", "filter": [ "edge_ngram" ] } } } } }
可配置参数
编辑-
max_gram
-
(可选,整数) gram 的最大字符长度。对于自定义分词过滤器,默认为
2
。对于内置的edge_ngram
过滤器,默认为1
。请参阅 max_gram 参数的限制。
-
min_gram
- (可选,整数) gram 的最小字符长度。默认为
1
。 -
preserve_original
- (可选,布尔值) 当设置为
true
时发出原始令牌。默认为false
。 -
side
-
(可选,字符串) [8.16.0] 在 8.16.0 中弃用。使用 <<analysis-reverse-tokenfilter 。指示是从
front
还是back
截断令牌。默认为front
。
自定义
编辑要自定义 edge_ngram
过滤器,请将其复制以创建新自定义分词过滤器的基础。您可以使用其可配置参数修改过滤器。
例如,以下请求创建了一个自定义 edge_ngram
过滤器,该过滤器形成 3-5 个字符之间的 n-gram。
resp = client.indices.create( index="edge_ngram_custom_example", settings={ "analysis": { "analyzer": { "default": { "tokenizer": "whitespace", "filter": [ "3_5_edgegrams" ] } }, "filter": { "3_5_edgegrams": { "type": "edge_ngram", "min_gram": 3, "max_gram": 5 } } } }, ) print(resp)
response = client.indices.create( index: 'edge_ngram_custom_example', body: { settings: { analysis: { analyzer: { default: { tokenizer: 'whitespace', filter: [ '3_5_edgegrams' ] } }, filter: { "3_5_edgegrams": { type: 'edge_ngram', min_gram: 3, max_gram: 5 } } } } } ) puts response
const response = await client.indices.create({ index: "edge_ngram_custom_example", settings: { analysis: { analyzer: { default: { tokenizer: "whitespace", filter: ["3_5_edgegrams"], }, }, filter: { "3_5_edgegrams": { type: "edge_ngram", min_gram: 3, max_gram: 5, }, }, }, }, }); console.log(response);
PUT edge_ngram_custom_example { "settings": { "analysis": { "analyzer": { "default": { "tokenizer": "whitespace", "filter": [ "3_5_edgegrams" ] } }, "filter": { "3_5_edgegrams": { "type": "edge_ngram", "min_gram": 3, "max_gram": 5 } } } } }
max_gram 参数的限制
编辑edge_ngram
过滤器的 max_gram
值限制了令牌的字符长度。当 edge_ngram
过滤器与索引分析器一起使用时,这意味着搜索词语长度超过 max_gram
长度可能与任何已索引的词语不匹配。
例如,如果 max_gram
为 3
,则搜索 apple
将不匹配已索引的词语 app
。
为了解决这个问题,您可以将 truncate
过滤器与搜索分析器一起使用,将搜索词语缩短到 max_gram
字符长度。但是,这可能会返回不相关的结果。
例如,如果 max_gram
为 3
并且搜索词语被截断为三个字符,则搜索词语 apple
将缩短为 app
。这意味着搜索 apple
返回任何与 app
匹配的已索引词语,例如 apply
、snapped
和 apple
。
我们建议测试这两种方法,以查看哪种方法最适合您的用例和所需的搜索体验。