平假名大写标记过滤器
编辑hiragana_uppercase
标记过滤器
编辑hiragana_uppercase
标记过滤器将平假名中的小写字母(捨て仮名)规范化为标准字母。如果您想搜索旧式日语文本(例如专利、法律文件、合同政策等),此过滤器很有用。
例如
PUT kuromoji_sample { "settings": { "index": { "analysis": { "analyzer": { "my_analyzer": { "tokenizer": "kuromoji_tokenizer", "filter": [ "hiragana_uppercase" ] } } } } } } GET kuromoji_sample/_analyze { "analyzer": "my_analyzer", "text": "ちょっとまって" }
结果为
{ "tokens": [ { "token": "ちよつと", "start_offset": 0, "end_offset": 4, "type": "word", "position": 0 }, { "token": "まつ", "start_offset": 4, "end_offset": 6, "type": "word", "position": 1 }, { "token": "て", "start_offset": 6, "end_offset": 7, "type": "word", "position": 2 } ] }