› › ›

ICU 规范化字符过滤器

根据此处所述对字符进行规范化。它将自身注册为 icu_normalizer 字符过滤器，无需任何其他配置即可用于所有索引。可以通过 name 参数指定规范化类型，该参数接受 nfc、nfkc 和 nfkc_cf（默认值）。将 mode 参数设置为 decompose 可将 nfc 转换为 nfd 或将 nfkc 转换为 nfkd。

可以通过指定 unicode_set_filter 参数来控制哪些字母被规范化，该参数接受一个UnicodeSet。

以下为两个示例，分别为默认用法和自定义字符过滤器

PUT icu_sample
{
  "settings": {
    "index": {
      "analysis": {
        "analyzer": {
          "nfkc_cf_normalized": { 
            "tokenizer": "icu_tokenizer",
            "char_filter": [
              "icu_normalizer"
            ]
          },
          "nfd_normalized": { 
            "tokenizer": "icu_tokenizer",
            "char_filter": [
              "nfd_normalizer"
            ]
          }
        },
        "char_filter": {
          "nfd_normalizer": {
            "type": "icu_normalizer",
            "name": "nfc",
            "mode": "decompose"
          }
        }
      }
    }
  }
}

	使用默认的 `nfkc_cf` 规范化。
	使用自定义的 `nfd_normalizer` 令牌过滤器，该过滤器设置为使用带分解的 `nfc` 规范化。

« ICU 分析器 ICU 分词器 »