唯一词元过滤器
编辑唯一词元过滤器
编辑从词元流中删除重复的词元。例如,您可以使用 unique
过滤器将 the lazy lazy dog
更改为 the lazy dog
。
如果将 only_on_same_position
参数设置为 true
,则 unique
过滤器仅删除在同一位置的重复词元。
当 only_on_same_position
为 true
时,unique
过滤器的工作方式与 remove_duplicates
过滤器相同。
示例
编辑以下 analyze API 请求使用 unique
过滤器从 the quick fox jumps the lazy fox
中删除重复的词元
resp = client.indices.analyze( tokenizer="whitespace", filter=[ "unique" ], text="the quick fox jumps the lazy fox", ) print(resp)
response = client.indices.analyze( body: { tokenizer: 'whitespace', filter: [ 'unique' ], text: 'the quick fox jumps the lazy fox' } ) puts response
const response = await client.indices.analyze({ tokenizer: "whitespace", filter: ["unique"], text: "the quick fox jumps the lazy fox", }); console.log(response);
GET _analyze { "tokenizer" : "whitespace", "filter" : ["unique"], "text" : "the quick fox jumps the lazy fox" }
该过滤器删除了 the
和 fox
的重复词元,产生以下输出
[ the, quick, fox, jumps, lazy ]
添加到分析器
编辑以下 创建索引 API 请求使用 unique
过滤器来配置新的自定义分析器。
resp = client.indices.create( index="custom_unique_example", settings={ "analysis": { "analyzer": { "standard_truncate": { "tokenizer": "standard", "filter": [ "unique" ] } } } }, ) print(resp)
response = client.indices.create( index: 'custom_unique_example', body: { settings: { analysis: { analyzer: { standard_truncate: { tokenizer: 'standard', filter: [ 'unique' ] } } } } } ) puts response
const response = await client.indices.create({ index: "custom_unique_example", settings: { analysis: { analyzer: { standard_truncate: { tokenizer: "standard", filter: ["unique"], }, }, }, }, }); console.log(response);
PUT custom_unique_example { "settings" : { "analysis" : { "analyzer" : { "standard_truncate" : { "tokenizer" : "standard", "filter" : ["unique"] } } } } }
可配置参数
编辑-
only_on_same_position
- (可选,布尔值) 如果为
true
,则仅删除同一位置的重复词元。默认为false
。
自定义
编辑要自定义 unique
过滤器,请复制它以创建新的自定义词元过滤器的基础。您可以使用其可配置参数修改过滤器。
例如,以下请求创建一个自定义 unique
过滤器,并将 only_on_same_position
设置为 true
。
resp = client.indices.create( index="letter_unique_pos_example", settings={ "analysis": { "analyzer": { "letter_unique_pos": { "tokenizer": "letter", "filter": [ "unique_pos" ] } }, "filter": { "unique_pos": { "type": "unique", "only_on_same_position": True } } } }, ) print(resp)
response = client.indices.create( index: 'letter_unique_pos_example', body: { settings: { analysis: { analyzer: { letter_unique_pos: { tokenizer: 'letter', filter: [ 'unique_pos' ] } }, filter: { unique_pos: { type: 'unique', only_on_same_position: true } } } } } ) puts response
const response = await client.indices.create({ index: "letter_unique_pos_example", settings: { analysis: { analyzer: { letter_unique_pos: { tokenizer: "letter", filter: ["unique_pos"], }, }, filter: { unique_pos: { type: "unique", only_on_same_position: true, }, }, }, }, }); console.log(response);
PUT letter_unique_pos_example { "settings": { "analysis": { "analyzer": { "letter_unique_pos": { "tokenizer": "letter", "filter": [ "unique_pos" ] } }, "filter": { "unique_pos": { "type": "unique", "only_on_same_position": true } } } } }