› › ›

泰语分词器

thai 分词器使用 Java 内置的泰语分词算法将泰语文本分割成单词。通常情况下，其他语言的文本将与standard 分词器的处理方式相同。

并非所有 JRE 都支持此分词器。已知它可以在 Sun/Oracle 和 OpenJDK 上工作。如果您的应用程序需要完全可移植，请考虑改用 ICU 分词器。

resp = client.indices.analyze(
    tokenizer="thai",
    text="การที่ได้ต้องแสดงว่างานดี",
)
print(resp)

response = client.indices.analyze(
  body: {
    tokenizer: 'thai',
    text: 'การที่ได้ต้องแสดงว่างานดี'
  }
)
puts response

const response = await client.indices.analyze({
  tokenizer: "thai",
  text: "การที่ได้ต้องแสดงว่างานดี",
});
console.log(response);

POST _analyze
{
  "tokenizer": "thai",
  "text": "การที่ได้ต้องแสดงว่างานดี"
}

以上句子会产生以下词项：

[ การ, ที่, ได้, ต้อง, แสดง, ว่า, งาน, ดี ]

thai 分词器不可配置。