边缘 n-gram 分词过滤器编辑

从标记的开头形成指定长度的 n-gram

例如,您可以使用 edge_ngram 分词过滤器将 quick 更改为 qu

默认情况下,如果未自定义,则过滤器会创建 1 个字符的边缘 n-gram。

此过滤器使用 Lucene 的 EdgeNGramTokenFilter

edge_ngram 过滤器类似于 ngram 分词过滤器。但是,edge_ngram 仅输出从标记开头开始的 n-gram。这些边缘 n-gram 对于 搜索时自动建议 查询非常有用。

示例编辑

以下 分析 API 请求使用 edge_ngram 过滤器将 the quick brown fox jumps 转换为 1 个字符和 2 个字符的边缘 n-gram

response = client.indices.analyze(
  body: {
    tokenizer: 'standard',
    filter: [
      {
        type: 'edge_ngram',
        min_gram: 1,
        max_gram: 2
      }
    ],
    text: 'the quick brown fox jumps'
  }
)
puts response
GET _analyze
{
  "tokenizer": "standard",
  "filter": [
    { "type": "edge_ngram",
      "min_gram": 1,
      "max_gram": 2
    }
  ],
  "text": "the quick brown fox jumps"
}

该过滤器生成以下标记

[ t, th, q, qu, b, br, f, fo, j, ju ]

添加到分析器编辑

以下 创建索引 API 请求使用 edge_ngram 过滤器配置新的 自定义分析器

response = client.indices.create(
  index: 'edge_ngram_example',
  body: {
    settings: {
      analysis: {
        analyzer: {
          standard_edge_ngram: {
            tokenizer: 'standard',
            filter: [
              'edge_ngram'
            ]
          }
        }
      }
    }
  }
)
puts response
PUT edge_ngram_example
{
  "settings": {
    "analysis": {
      "analyzer": {
        "standard_edge_ngram": {
          "tokenizer": "standard",
          "filter": [ "edge_ngram" ]
        }
      }
    }
  }
}

可配置参数编辑

max_gram

(可选,整数)gram 的最大字符长度。对于自定义分词过滤器,默认为 2。对于内置的 edge_ngram 过滤器,默认为 1

请参阅 max_gram 参数的限制

min_gram
(可选,整数)gram 的最小字符长度。默认为 1
preserve_original
(可选,布尔值)设置为 true 时,将输出原始标记。默认为 false
side

(可选,字符串)已弃用。指示是从 front 还是 back 截断标记。默认为 front

您可以使用 reverse 分词过滤器在 edge_ngram 过滤器之前和之后,而不是使用 back 值来实现相同的结果。

自定义编辑

要自定义 edge_ngram 过滤器,请复制它以创建新的自定义分词过滤器的基础。您可以使用其可配置参数修改过滤器。

例如,以下请求创建了一个自定义的 edge_ngram 过滤器,该过滤器形成 3-5 个字符之间的 n-gram。

response = client.indices.create(
  index: 'edge_ngram_custom_example',
  body: {
    settings: {
      analysis: {
        analyzer: {
          default: {
            tokenizer: 'whitespace',
            filter: [
              '3_5_edgegrams'
            ]
          }
        },
        filter: {
          "3_5_edgegrams": {
            type: 'edge_ngram',
            min_gram: 3,
            max_gram: 5
          }
        }
      }
    }
  }
)
puts response
PUT edge_ngram_custom_example
{
  "settings": {
    "analysis": {
      "analyzer": {
        "default": {
          "tokenizer": "whitespace",
          "filter": [ "3_5_edgegrams" ]
        }
      },
      "filter": {
        "3_5_edgegrams": {
          "type": "edge_ngram",
          "min_gram": 3,
          "max_gram": 5
        }
      }
    }
  }
}

max_gram 参数的限制编辑

edge_ngram 过滤器的 max_gram 值限制了标记的字符长度。当 edge_ngram 过滤器与索引分析器一起使用时,这意味着长度超过 max_gram 长度的搜索词可能与任何索引词都不匹配。

例如,如果 max_gram3,则搜索 apple 将不会匹配索引词 app

为了解决这个问题,您可以将 truncate 过滤器与搜索分析器一起使用,以将搜索词缩短到 max_gram 字符长度。但是,这可能会返回不相关的结果。

例如,如果 max_gram3 并且搜索词被截断为三个字符,则搜索词 apple 将被缩短为 app。这意味着搜索 apple 将返回与 app 匹配的任何索引词,例如 applysnappedapple

我们建议您测试这两种方法,以确定哪种方法最适合您的用例和所需的搜索体验。