长度词元过滤器编辑

移除长度小于或大于指定字符长度的词元。例如,您可以使用 length 过滤器排除长度小于 2 个字符的词元和长度大于 5 个字符的词元。

此过滤器使用 Lucene 的 LengthFilter

length 过滤器会移除整个词元。如果您希望将词元缩短到特定长度,请使用 truncate 过滤器。

示例编辑

以下 分析 API 请求使用 length 过滤器移除长度大于 4 个字符的词元

response = client.indices.analyze(
  body: {
    tokenizer: 'whitespace',
    filter: [
      {
        type: 'length',
        min: 0,
        max: 4
      }
    ],
    text: 'the quick brown fox jumps over the lazy dog'
  }
)
puts response
GET _analyze
{
  "tokenizer": "whitespace",
  "filter": [
    {
      "type": "length",
      "min": 0,
      "max": 4
    }
  ],
  "text": "the quick brown fox jumps over the lazy dog"
}

过滤器生成以下词元

[ the, fox, over, the, lazy, dog ]

添加到分析器编辑

以下 创建索引 API 请求使用 length 过滤器来配置一个新的 自定义分析器

response = client.indices.create(
  index: 'length_example',
  body: {
    settings: {
      analysis: {
        analyzer: {
          standard_length: {
            tokenizer: 'standard',
            filter: [
              'length'
            ]
          }
        }
      }
    }
  }
)
puts response
PUT length_example
{
  "settings": {
    "analysis": {
      "analyzer": {
        "standard_length": {
          "tokenizer": "standard",
          "filter": [ "length" ]
        }
      }
    }
  }
}

可配置参数编辑

min
(可选,整数) 词元的最小字符长度。长度更短的词元将从输出中排除。默认为 0
max
(可选,整数) 词元的最大字符长度。长度更长的词元将从输出中排除。默认为 Integer.MAX_VALUE,即 2^31-12147483647

自定义编辑

要自定义 length 过滤器,请复制它以创建新的自定义词元过滤器的基础。您可以使用其可配置参数修改过滤器。

例如,以下请求创建一个自定义 length 过滤器,它会移除长度小于 2 个字符的词元和长度大于 10 个字符的词元

response = client.indices.create(
  index: 'length_custom_example',
  body: {
    settings: {
      analysis: {
        analyzer: {
          "whitespace_length_2_to_10_char": {
            tokenizer: 'whitespace',
            filter: [
              'length_2_to_10_char'
            ]
          }
        },
        filter: {
          "length_2_to_10_char": {
            type: 'length',
            min: 2,
            max: 10
          }
        }
      }
    }
  }
)
puts response
PUT length_custom_example
{
  "settings": {
    "analysis": {
      "analyzer": {
        "whitespace_length_2_to_10_char": {
          "tokenizer": "whitespace",
          "filter": [ "length_2_to_10_char" ]
        }
      },
      "filter": {
        "length_2_to_10_char": {
          "type": "length",
          "min": 2,
          "max": 10
        }
      }
    }
  }
}