kuromoji_stemmer 词元过滤器
编辑kuromoji_stemmer
词元过滤器编辑
kuromoji_stemmer
词元过滤器通过删除长音符字符 (U+30FC) 来规范化以长音符字符结尾的常见片假名拼写变体。仅支持全角片假名字符。
此词元过滤器接受以下设置
-
minimum_length
- 小于
minimum_length
的片假名词不会被词干化(默认值为4
)。
PUT kuromoji_sample { "settings": { "index": { "analysis": { "analyzer": { "my_analyzer": { "tokenizer": "kuromoji_tokenizer", "filter": [ "my_katakana_stemmer" ] } }, "filter": { "my_katakana_stemmer": { "type": "kuromoji_stemmer", "minimum_length": 4 } } } } } } GET kuromoji_sample/_analyze { "analyzer": "my_analyzer", "text": "コピー" } GET kuromoji_sample/_analyze { "analyzer": "my_analyzer", "text": "サーバー" }