CJK 二元语法 Token 过滤器
编辑CJK 二元语法 Token 过滤器
编辑从 CJK(中文、日文和韩文)token 中形成二元语法。
此过滤器包含在 Elasticsearch 的内置 CJK 语言分析器中。它使用 Lucene 的 CJKBigramFilter。
示例
编辑以下 分析 API 请求演示了 CJK 二元语法 Token 过滤器的工作方式。
resp = client.indices.analyze( tokenizer="standard", filter=[ "cjk_bigram" ], text="東京都は、日本の首都であり", ) print(resp)
response = client.indices.analyze( body: { tokenizer: 'standard', filter: [ 'cjk_bigram' ], text: '東京都は、日本の首都であり' } ) puts response
const response = await client.indices.analyze({ tokenizer: "standard", filter: ["cjk_bigram"], text: "東京都は、日本の首都であり", }); console.log(response);
GET /_analyze { "tokenizer" : "standard", "filter" : ["cjk_bigram"], "text" : "東京都は、日本の首都であり" }
该过滤器生成以下 token
[ 東京, 京都, 都は, 日本, 本の, の首, 首都, 都で, であ, あり ]
添加到分析器
编辑以下 创建索引 API 请求使用 CJK 二元语法 Token 过滤器来配置新的自定义分析器。
resp = client.indices.create( index="cjk_bigram_example", settings={ "analysis": { "analyzer": { "standard_cjk_bigram": { "tokenizer": "standard", "filter": [ "cjk_bigram" ] } } } }, ) print(resp)
response = client.indices.create( index: 'cjk_bigram_example', body: { settings: { analysis: { analyzer: { standard_cjk_bigram: { tokenizer: 'standard', filter: [ 'cjk_bigram' ] } } } } } ) puts response
const response = await client.indices.create({ index: "cjk_bigram_example", settings: { analysis: { analyzer: { standard_cjk_bigram: { tokenizer: "standard", filter: ["cjk_bigram"], }, }, }, }, }); console.log(response);
PUT /cjk_bigram_example { "settings": { "analysis": { "analyzer": { "standard_cjk_bigram": { "tokenizer": "standard", "filter": [ "cjk_bigram" ] } } } } }
可配置参数
编辑-
ignored_scripts
-
(可选,字符脚本数组)要禁用二元语法的字符脚本数组。可能的值
-
han
-
hangul
-
hiragana
-
katakana
所有非 CJK 输入都将不做修改地传递。
-
-
output_unigrams
- (可选,布尔值)如果
true
,则以二元语法和一元语法形式发出 token。如果false
,则当 CJK 字符没有相邻字符时,以一元语法形式输出。默认为false
。
自定义
编辑要自定义 CJK 二元语法 Token 过滤器,请复制它以创建新自定义 Token 过滤器的基础。您可以使用其可配置参数修改过滤器。
resp = client.indices.create( index="cjk_bigram_example", settings={ "analysis": { "analyzer": { "han_bigrams": { "tokenizer": "standard", "filter": [ "han_bigrams_filter" ] } }, "filter": { "han_bigrams_filter": { "type": "cjk_bigram", "ignored_scripts": [ "hangul", "hiragana", "katakana" ], "output_unigrams": True } } } }, ) print(resp)
response = client.indices.create( index: 'cjk_bigram_example', body: { settings: { analysis: { analyzer: { han_bigrams: { tokenizer: 'standard', filter: [ 'han_bigrams_filter' ] } }, filter: { han_bigrams_filter: { type: 'cjk_bigram', ignored_scripts: [ 'hangul', 'hiragana', 'katakana' ], output_unigrams: true } } } } } ) puts response
const response = await client.indices.create({ index: "cjk_bigram_example", settings: { analysis: { analyzer: { han_bigrams: { tokenizer: "standard", filter: ["han_bigrams_filter"], }, }, filter: { han_bigrams_filter: { type: "cjk_bigram", ignored_scripts: ["hangul", "hiragana", "katakana"], output_unigrams: true, }, }, }, }, }); console.log(response);
PUT /cjk_bigram_example { "settings": { "analysis": { "analyzer": { "han_bigrams": { "tokenizer": "standard", "filter": [ "han_bigrams_filter" ] } }, "filter": { "han_bigrams_filter": { "type": "cjk_bigram", "ignored_scripts": [ "hangul", "hiragana", "katakana" ], "output_unigrams": true } } } } }