泰语分词器
编辑泰语分词器
编辑thai
分词器使用 Java 中包含的泰语分词算法将泰语文本分割成单词。其他语言的文本通常将与standard
分词器相同。
并非所有 JRE 都支持此分词器。已知它与 Sun/Oracle 和 OpenJDK 兼容。如果您的应用程序需要完全可移植,请考虑改用ICU 分词器。
示例输出
编辑resp = client.indices.analyze( tokenizer="thai", text="การที่ได้ต้องแสดงว่างานดี", ) print(resp)
response = client.indices.analyze( body: { tokenizer: 'thai', text: 'การที่ได้ต้องแสดงว่างานดี' } ) puts response
const response = await client.indices.analyze({ tokenizer: "thai", text: "การที่ได้ต้องแสดงว่างานดี", }); console.log(response);
POST _analyze { "tokenizer": "thai", "text": "การที่ได้ต้องแสดงว่างานดี" }
以上句子将生成以下术语
[ การ, ที่, ได้, ต้อง, แสดง, ว่า, งาน, ดี ]
配置
编辑thai
分词器不可配置。