指纹分析器
编辑指纹分析器编辑
fingerprint
分析器实现了一种 指纹算法,OpenRefine 项目使用该算法来辅助聚类。
输入文本将被转换为小写,标准化为删除扩展字符,排序、去重并连接成单个标记。如果配置了停用词列表,也会删除停用词。
示例输出编辑
response = client.indices.analyze( body: { analyzer: 'fingerprint', text: 'Yes yes, Gödel said this sentence is consistent and.' } ) puts response
POST _analyze { "analyzer": "fingerprint", "text": "Yes yes, Gödel said this sentence is consistent and." }
上面的句子将生成以下单个词项
[ and consistent godel is said sentence this yes ]
配置编辑
fingerprint
分析器接受以下参数
|
用于连接词项的字符。默认为空格。 |
|
要发出的最大标记大小。默认为 |
|
预定义的停用词列表,如 |
|
包含停用词的文件的路径。 |
有关停用词配置的更多信息,请参阅 停用词标记过滤器。
示例配置编辑
在此示例中,我们将配置 fingerprint
分析器以使用预定义的英语停用词列表
response = client.indices.create( index: 'my-index-000001', body: { settings: { analysis: { analyzer: { my_fingerprint_analyzer: { type: 'fingerprint', stopwords: '_english_' } } } } } ) puts response response = client.indices.analyze( index: 'my-index-000001', body: { analyzer: 'my_fingerprint_analyzer', text: 'Yes yes, Gödel said this sentence is consistent and.' } ) puts response
PUT my-index-000001 { "settings": { "analysis": { "analyzer": { "my_fingerprint_analyzer": { "type": "fingerprint", "stopwords": "_english_" } } } } } POST my-index-000001/_analyze { "analyzer": "my_fingerprint_analyzer", "text": "Yes yes, Gödel said this sentence is consistent and." }
上面的示例生成以下词项
[ consistent godel said sentence yes ]
定义编辑
fingerprint
分词器由以下部分组成
如果需要自定义 fingerprint
分析器,使其超出配置参数的范围,则需要将其重新创建为 custom
分析器并对其进行修改,通常是通过添加标记过滤器。这将重新创建内置的 fingerprint
分析器,您可以将其用作进一步自定义的起点
response = client.indices.create( index: 'fingerprint_example', body: { settings: { analysis: { analyzer: { rebuilt_fingerprint: { tokenizer: 'standard', filter: [ 'lowercase', 'asciifolding', 'fingerprint' ] } } } } } ) puts response
PUT /fingerprint_example { "settings": { "analysis": { "analyzer": { "rebuilt_fingerprint": { "tokenizer": "standard", "filter": [ "lowercase", "asciifolding", "fingerprint" ] } } } } }