kuromoji_stemmer 词元过滤器

编辑

kuromoji_stemmer 词元过滤器通过移除长音字符 (U+30FC),规范化常见的以长音字符结尾的片假名拼写变体。仅支持全角片假名字符。

此词元过滤器接受以下设置:

minimum_length
短于minimum_length 的片假名词不会进行词干提取(默认为4)。
PUT kuromoji_sample
{
  "settings": {
    "index": {
      "analysis": {
        "analyzer": {
          "my_analyzer": {
            "tokenizer": "kuromoji_tokenizer",
            "filter": [
              "my_katakana_stemmer"
            ]
          }
        },
        "filter": {
          "my_katakana_stemmer": {
            "type": "kuromoji_stemmer",
            "minimum_length": 4
          }
        }
      }
    }
  }
}

GET kuromoji_sample/_analyze
{
  "analyzer": "my_analyzer",
  "text": "コピー" 
}

GET kuromoji_sample/_analyze
{
  "analyzer": "my_analyzer",
  "text": "サーバー" 
}

返回 コピー

返回 サーバ