限制词元计数词元过滤器
编辑限制词元计数词元过滤器
编辑限制输出词元的数量。limit
过滤器通常用于根据词元计数限制文档字段值的长度。
默认情况下,limit
过滤器只保留流中的第一个词元。例如,该过滤器可以将词元流 [ one, two, three ]
更改为 [ one ]
。
此过滤器使用 Lucene 的 LimitTokenCountFilter。
If you want to limit the size of field values based on _character length_, use the <<ignore-above,`ignore_above`>> mapping parameter.
可配置参数
编辑-
max_token_count
- (可选,整数) 要保留的最大词元数。达到此限制后,任何剩余的词元都将从输出中排除。默认为
1
。 -
consume_all_tokens
- (可选,布尔值) 如果为
true
,则limit
过滤器将耗尽词元流,即使已经达到max_token_count
。默认为false
。
示例
编辑以下 分析 API 请求使用 limit
过滤器只保留 quick fox jumps over lazy dog
中的前两个词元。
resp = client.indices.analyze( tokenizer="standard", filter=[ { "type": "limit", "max_token_count": 2 } ], text="quick fox jumps over lazy dog", ) print(resp)
response = client.indices.analyze( body: { tokenizer: 'standard', filter: [ { type: 'limit', max_token_count: 2 } ], text: 'quick fox jumps over lazy dog' } ) puts response
const response = await client.indices.analyze({ tokenizer: "standard", filter: [ { type: "limit", max_token_count: 2, }, ], text: "quick fox jumps over lazy dog", }); console.log(response);
GET _analyze { "tokenizer": "standard", "filter": [ { "type": "limit", "max_token_count": 2 } ], "text": "quick fox jumps over lazy dog" }
过滤器生成以下词元:
[ quick, fox ]
添加到分析器
编辑以下 创建索引 API 请求使用 limit
过滤器来配置一个新的 自定义分析器。
resp = client.indices.create( index="limit_example", settings={ "analysis": { "analyzer": { "standard_one_token_limit": { "tokenizer": "standard", "filter": [ "limit" ] } } } }, ) print(resp)
response = client.indices.create( index: 'limit_example', body: { settings: { analysis: { analyzer: { standard_one_token_limit: { tokenizer: 'standard', filter: [ 'limit' ] } } } } } ) puts response
const response = await client.indices.create({ index: "limit_example", settings: { analysis: { analyzer: { standard_one_token_limit: { tokenizer: "standard", filter: ["limit"], }, }, }, }, }); console.log(response);
PUT limit_example { "settings": { "analysis": { "analyzer": { "standard_one_token_limit": { "tokenizer": "standard", "filter": [ "limit" ] } } } } }
自定义
编辑要自定义 limit
过滤器,请复制它以创建新自定义词元过滤器的基础。您可以使用其可配置参数修改过滤器。
例如,以下请求创建一个自定义 limit
过滤器,该过滤器只保留流中的前五个词元。
resp = client.indices.create( index="custom_limit_example", settings={ "analysis": { "analyzer": { "whitespace_five_token_limit": { "tokenizer": "whitespace", "filter": [ "five_token_limit" ] } }, "filter": { "five_token_limit": { "type": "limit", "max_token_count": 5 } } } }, ) print(resp)
response = client.indices.create( index: 'custom_limit_example', body: { settings: { analysis: { analyzer: { whitespace_five_token_limit: { tokenizer: 'whitespace', filter: [ 'five_token_limit' ] } }, filter: { five_token_limit: { type: 'limit', max_token_count: 5 } } } } } ) puts response
const response = await client.indices.create({ index: "custom_limit_example", settings: { analysis: { analyzer: { whitespace_five_token_limit: { tokenizer: "whitespace", filter: ["five_token_limit"], }, }, filter: { five_token_limit: { type: "limit", max_token_count: 5, }, }, }, }, }); console.log(response);
PUT custom_limit_example { "settings": { "analysis": { "analyzer": { "whitespace_five_token_limit": { "tokenizer": "whitespace", "filter": [ "five_token_limit" ] } }, "filter": { "five_token_limit": { "type": "limit", "max_token_count": 5 } } } } }