KStem 词元过滤器
编辑KStem 词元过滤器
编辑为英语提供基于 KStem 的词干提取。 kstem
过滤器将算法词干提取与内置的字典相结合。
kstem
过滤器往往比其他英语词干提取过滤器(如 porter_stem
过滤器)的词干提取力度要小。
kstem
过滤器等效于 stemmer
过滤器的 light_english
变体。
此过滤器使用 Lucene 的 KStemFilter。
示例
编辑以下 analyze API 请求使用 kstem
过滤器将 the foxes jumping quickly
词干提取为 the fox jump quick
resp = client.indices.analyze( tokenizer="standard", filter=[ "kstem" ], text="the foxes jumping quickly", ) print(resp)
response = client.indices.analyze( body: { tokenizer: 'standard', filter: [ 'kstem' ], text: 'the foxes jumping quickly' } ) puts response
const response = await client.indices.analyze({ tokenizer: "standard", filter: ["kstem"], text: "the foxes jumping quickly", }); console.log(response);
GET /_analyze { "tokenizer": "standard", "filter": [ "kstem" ], "text": "the foxes jumping quickly" }
该过滤器生成以下词元
[ the, fox, jump, quick ]
添加到分析器
编辑以下 创建索引 API 请求使用 kstem
过滤器配置新的 自定义分析器。
为了正常工作,kstem
过滤器需要小写词元。为了确保词元小写,请在分析器配置中将 lowercase
过滤器添加到 kstem
过滤器之前。
resp = client.indices.create( index="my-index-000001", settings={ "analysis": { "analyzer": { "my_analyzer": { "tokenizer": "whitespace", "filter": [ "lowercase", "kstem" ] } } } }, ) print(resp)
response = client.indices.create( index: 'my-index-000001', body: { settings: { analysis: { analyzer: { my_analyzer: { tokenizer: 'whitespace', filter: [ 'lowercase', 'kstem' ] } } } } } ) puts response
const response = await client.indices.create({ index: "my-index-000001", settings: { analysis: { analyzer: { my_analyzer: { tokenizer: "whitespace", filter: ["lowercase", "kstem"], }, }, }, }, }); console.log(response);
PUT /my-index-000001 { "settings": { "analysis": { "analyzer": { "my_analyzer": { "tokenizer": "whitespace", "filter": [ "lowercase", "kstem" ] } } } } }