截断令牌过滤器编辑

截断超过指定字符限制的令牌。此限制默认为 10,但可以使用 length 参数自定义。

例如,您可以使用 truncate 过滤器将所有令牌缩短至 3 个字符或更少,将 jumping fox 更改为 jum fox

此过滤器使用 Lucene 的 TruncateTokenFilter

示例编辑

以下 分析 API 请求使用 truncate 过滤器缩短 the quinquennial extravaganza carried on 中超过 10 个字符的令牌

response = client.indices.analyze(
  body: {
    tokenizer: 'whitespace',
    filter: [
      'truncate'
    ],
    text: 'the quinquennial extravaganza carried on'
  }
)
puts response
GET _analyze
{
  "tokenizer" : "whitespace",
  "filter" : ["truncate"],
  "text" : "the quinquennial extravaganza carried on"
}

过滤器生成以下令牌

[ the, quinquenni, extravagan, carried, on ]

添加到分析器编辑

以下 创建索引 API 请求使用 truncate 过滤器配置一个新的 自定义分析器

response = client.indices.create(
  index: 'custom_truncate_example',
  body: {
    settings: {
      analysis: {
        analyzer: {
          standard_truncate: {
            tokenizer: 'standard',
            filter: [
              'truncate'
            ]
          }
        }
      }
    }
  }
)
puts response
PUT custom_truncate_example
{
  "settings" : {
    "analysis" : {
      "analyzer" : {
        "standard_truncate" : {
        "tokenizer" : "standard",
        "filter" : ["truncate"]
        }
      }
    }
  }
}

可配置参数编辑

length
(可选,整数) 每个令牌的字符限制。超过此限制的令牌将被截断。默认为 10

自定义编辑

要自定义 truncate 过滤器,请复制它以创建新自定义令牌过滤器的基础。您可以使用其可配置参数修改过滤器。

例如,以下请求创建一个自定义的 truncate 过滤器,5_char_trunc,它将令牌缩短至 length5 个字符或更少

response = client.indices.create(
  index: '5_char_words_example',
  body: {
    settings: {
      analysis: {
        analyzer: {
          "lowercase_5_char": {
            tokenizer: 'lowercase',
            filter: [
              '5_char_trunc'
            ]
          }
        },
        filter: {
          "5_char_trunc": {
            type: 'truncate',
            length: 5
          }
        }
      }
    }
  }
)
puts response
PUT 5_char_words_example
{
  "settings": {
    "analysis": {
      "analyzer": {
        "lowercase_5_char": {
          "tokenizer": "lowercase",
          "filter": [ "5_char_trunc" ]
        }
      },
      "filter": {
        "5_char_trunc": {
          "type": "truncate",
          "length": 5
        }
      }
    }
  }
}