kuromoji_stemmer 词元过滤器
编辑kuromoji_stemmer
词元过滤器
编辑kuromoji_stemmer
词元过滤器通过移除长音字符 (U+30FC),规范化常见的以长音字符结尾的片假名拼写变体。仅支持全角片假名字符。
此词元过滤器接受以下设置:
-
minimum_length
- 短于
minimum_length
的片假名词不会进行词干提取(默认为4
)。
PUT kuromoji_sample { "settings": { "index": { "analysis": { "analyzer": { "my_analyzer": { "tokenizer": "kuromoji_tokenizer", "filter": [ "my_katakana_stemmer" ] } }, "filter": { "my_katakana_stemmer": { "type": "kuromoji_stemmer", "minimum_length": 4 } } } } } } GET kuromoji_sample/_analyze { "analyzer": "my_analyzer", "text": "コピー" } GET kuromoji_sample/_analyze { "analyzer": "my_analyzer", "text": "サーバー" }