大写字母标记过滤器
编辑大写字母标记过滤器
编辑将标记文本转换为大写字母。例如,您可以使用 uppercase
过滤器将 the Lazy DoG
更改为 THE LAZY DOG
。
此过滤器使用 Lucene 的 UpperCaseFilter。
根据语言的不同,大写字母可以映射到多个小写字母。使用 uppercase
过滤器可能会导致丢失小写字母信息。
为了避免这种信息丢失,但仍然保持一致的字母大小写,请改用 lowercase
过滤器。
示例
编辑以下 分析 API 请求使用默认的 uppercase
过滤器将 the Quick FoX JUMPs
转换为大写字母。
resp = client.indices.analyze( tokenizer="standard", filter=[ "uppercase" ], text="the Quick FoX JUMPs", ) print(resp)
response = client.indices.analyze( body: { tokenizer: 'standard', filter: [ 'uppercase' ], text: 'the Quick FoX JUMPs' } ) puts response
const response = await client.indices.analyze({ tokenizer: "standard", filter: ["uppercase"], text: "the Quick FoX JUMPs", }); console.log(response);
GET _analyze { "tokenizer" : "standard", "filter" : ["uppercase"], "text" : "the Quick FoX JUMPs" }
过滤器生成以下标记:
[ THE, QUICK, FOX, JUMPS ]
添加到分析器
编辑以下 创建索引 API 请求使用 uppercase
过滤器来配置新的 自定义分析器。
resp = client.indices.create( index="uppercase_example", settings={ "analysis": { "analyzer": { "whitespace_uppercase": { "tokenizer": "whitespace", "filter": [ "uppercase" ] } } } }, ) print(resp)
response = client.indices.create( index: 'uppercase_example', body: { settings: { analysis: { analyzer: { whitespace_uppercase: { tokenizer: 'whitespace', filter: [ 'uppercase' ] } } } } } ) puts response
const response = await client.indices.create({ index: "uppercase_example", settings: { analysis: { analyzer: { whitespace_uppercase: { tokenizer: "whitespace", filter: ["uppercase"], }, }, }, }, }); console.log(response);
PUT uppercase_example { "settings": { "analysis": { "analyzer": { "whitespace_uppercase": { "tokenizer": "whitespace", "filter": [ "uppercase" ] } } } } }