kuromoji_stemmer 词元过滤器编辑

kuromoji_stemmer 词元过滤器通过删除长音符字符 (U+30FC) 来规范化以长音符字符结尾的常见片假名拼写变体。仅支持全角片假名字符。

此词元过滤器接受以下设置

minimum_length
小于 minimum_length 的片假名词不会被词干化(默认值为 4)。
PUT kuromoji_sample
{
  "settings": {
    "index": {
      "analysis": {
        "analyzer": {
          "my_analyzer": {
            "tokenizer": "kuromoji_tokenizer",
            "filter": [
              "my_katakana_stemmer"
            ]
          }
        },
        "filter": {
          "my_katakana_stemmer": {
            "type": "kuromoji_stemmer",
            "minimum_length": 4
          }
        }
      }
    }
  }
}

GET kuromoji_sample/_analyze
{
  "analyzer": "my_analyzer",
  "text": "コピー" 
}

GET kuromoji_sample/_analyze
{
  "analyzer": "my_analyzer",
  "text": "サーバー" 
}

返回 コピー

返回 サーバ