大写标记过滤器
编辑大写标记过滤器编辑
将标记文本更改为大写。例如,您可以使用 uppercase
过滤器将 the Lazy DoG
更改为 THE LAZY DOG
。
此过滤器使用 Lucene 的 UpperCaseFilter。
根据语言的不同,大写字符可以映射到多个小写字符。使用 uppercase
过滤器可能会导致丢失小写字符信息。
为了避免这种丢失,但仍然保持一致的字母大小写,请使用 lowercase
过滤器。
示例编辑
以下 分析 API 请求使用默认的 uppercase
过滤器将 the Quick FoX JUMPs
更改为大写
response = client.indices.analyze( body: { tokenizer: 'standard', filter: [ 'uppercase' ], text: 'the Quick FoX JUMPs' } ) puts response
GET _analyze { "tokenizer" : "standard", "filter" : ["uppercase"], "text" : "the Quick FoX JUMPs" }
过滤器生成以下标记
[ THE, QUICK, FOX, JUMPS ]
添加到分析器编辑
以下 创建索引 API 请求使用 uppercase
过滤器来配置一个新的 自定义分析器。
response = client.indices.create( index: 'uppercase_example', body: { settings: { analysis: { analyzer: { whitespace_uppercase: { tokenizer: 'whitespace', filter: [ 'uppercase' ] } } } } } ) puts response
PUT uppercase_example { "settings": { "analysis": { "analyzer": { "whitespace_uppercase": { "tokenizer": "whitespace", "filter": [ "uppercase" ] } } } } }