泰语分词器编辑

thai 分词器使用 Java 中包含的泰语分词算法将泰语文本分词成单词。其他语言的文本通常将被视为与 standard 分词器 相同。

并非所有 JRE 都支持此分词器。已知它可与 Sun/Oracle 和 OpenJDK 配合使用。如果您的应用程序需要完全可移植,请考虑改用 ICU 分词器

示例输出编辑

response = client.indices.analyze(
  body: {
    tokenizer: 'thai',
    text: 'การที่ได้ต้องแสดงว่างานดี'
  }
)
puts response
POST _analyze
{
  "tokenizer": "thai",
  "text": "การที่ได้ต้องแสดงว่างานดี"
}

以上句子将生成以下词条

[ การ, ที่, ได้, ต้อง, แสดง, ว่า, งาน, ดี ]

配置编辑

thai 分词器不可配置。