nori_part_of_speech 词元过滤器
编辑nori_part_of_speech
词元过滤器编辑
nori_part_of_speech
词元过滤器会移除与一组词性标签匹配的词元。支持的标签列表及其含义可以在此处找到:词性标签
它接受以下设置
-
stoptags
- 要移除的词性标签数组。
默认值为
"stoptags": [ "E", "IC", "J", "MAG", "MAJ", "MM", "SP", "SSC", "SSO", "SC", "SE", "XPN", "XSA", "XSN", "XSV", "UNA", "NA", "VSV" ]
例如
PUT nori_sample { "settings": { "index": { "analysis": { "analyzer": { "my_analyzer": { "tokenizer": "nori_tokenizer", "filter": [ "my_posfilter" ] } }, "filter": { "my_posfilter": { "type": "nori_part_of_speech", "stoptags": [ "NR" ] } } } } } } GET nori_sample/_analyze { "analyzer": "my_analyzer", "text": "여섯 용이" }
响应结果为
{ "tokens" : [ { "token" : "용", "start_offset" : 3, "end_offset" : 4, "type" : "word", "position" : 1 }, { "token" : "이", "start_offset" : 4, "end_offset" : 5, "type" : "word", "position" : 2 } ] }