边缘 n-gram 词元过滤器

编辑

从词元的开头形成指定长度的 n-gram

例如,您可以使用 edge_ngram 词元过滤器将 quick 更改为 qu

当未自定义时,该过滤器默认创建 1 个字符的边缘 n-gram。

此过滤器使用 Lucene 的 EdgeNGramTokenFilter

edge_ngram 过滤器类似于 ngram 词元过滤器。但是,edge_ngram 仅输出从词元开头开始的 n-gram。这些边缘 n-gram 对于 即时搜索 查询非常有用。

示例

编辑

以下 analyze API 请求使用 edge_ngram 过滤器将 the quick brown fox jumps 转换为 1 个字符和 2 个字符的边缘 n-gram

resp = client.indices.analyze(
    tokenizer="standard",
    filter=[
        {
            "type": "edge_ngram",
            "min_gram": 1,
            "max_gram": 2
        }
    ],
    text="the quick brown fox jumps",
)
print(resp)
response = client.indices.analyze(
  body: {
    tokenizer: 'standard',
    filter: [
      {
        type: 'edge_ngram',
        min_gram: 1,
        max_gram: 2
      }
    ],
    text: 'the quick brown fox jumps'
  }
)
puts response
const response = await client.indices.analyze({
  tokenizer: "standard",
  filter: [
    {
      type: "edge_ngram",
      min_gram: 1,
      max_gram: 2,
    },
  ],
  text: "the quick brown fox jumps",
});
console.log(response);
GET _analyze
{
  "tokenizer": "standard",
  "filter": [
    { "type": "edge_ngram",
      "min_gram": 1,
      "max_gram": 2
    }
  ],
  "text": "the quick brown fox jumps"
}

该过滤器产生以下词元

[ t, th, q, qu, b, br, f, fo, j, ju ]

添加到分析器

编辑

以下 create index API 请求使用 edge_ngram 过滤器来配置新的 自定义分析器

resp = client.indices.create(
    index="edge_ngram_example",
    settings={
        "analysis": {
            "analyzer": {
                "standard_edge_ngram": {
                    "tokenizer": "standard",
                    "filter": [
                        "edge_ngram"
                    ]
                }
            }
        }
    },
)
print(resp)
response = client.indices.create(
  index: 'edge_ngram_example',
  body: {
    settings: {
      analysis: {
        analyzer: {
          standard_edge_ngram: {
            tokenizer: 'standard',
            filter: [
              'edge_ngram'
            ]
          }
        }
      }
    }
  }
)
puts response
const response = await client.indices.create({
  index: "edge_ngram_example",
  settings: {
    analysis: {
      analyzer: {
        standard_edge_ngram: {
          tokenizer: "standard",
          filter: ["edge_ngram"],
        },
      },
    },
  },
});
console.log(response);
PUT edge_ngram_example
{
  "settings": {
    "analysis": {
      "analyzer": {
        "standard_edge_ngram": {
          "tokenizer": "standard",
          "filter": [ "edge_ngram" ]
        }
      }
    }
  }
}

可配置参数

编辑
max_gram

(可选,整数)一个 gram 的最大字符长度。对于自定义词元过滤器,默认为 2。对于内置的 edge_ngram 过滤器,默认为 1

请参阅 max_gram 参数的限制

min_gram
(可选,整数)一个 gram 的最小字符长度。默认为 1
preserve_original
(可选,布尔值)当设置为 true 时,发出原始词元。默认为 false
side

(可选,字符串) [8.16.0] 在 8.16.0 中已弃用。使用 <<analysis-reverse-tokenfilter 。指示是从 front 还是 back 截断词元。默认为 front

自定义

编辑

要自定义 edge_ngram 过滤器,请复制它以创建新的自定义词元过滤器的基础。您可以使用其可配置参数修改过滤器。

例如,以下请求创建一个自定义的 edge_ngram 过滤器,该过滤器形成 3-5 个字符之间的 n-gram。

resp = client.indices.create(
    index="edge_ngram_custom_example",
    settings={
        "analysis": {
            "analyzer": {
                "default": {
                    "tokenizer": "whitespace",
                    "filter": [
                        "3_5_edgegrams"
                    ]
                }
            },
            "filter": {
                "3_5_edgegrams": {
                    "type": "edge_ngram",
                    "min_gram": 3,
                    "max_gram": 5
                }
            }
        }
    },
)
print(resp)
response = client.indices.create(
  index: 'edge_ngram_custom_example',
  body: {
    settings: {
      analysis: {
        analyzer: {
          default: {
            tokenizer: 'whitespace',
            filter: [
              '3_5_edgegrams'
            ]
          }
        },
        filter: {
          "3_5_edgegrams": {
            type: 'edge_ngram',
            min_gram: 3,
            max_gram: 5
          }
        }
      }
    }
  }
)
puts response
const response = await client.indices.create({
  index: "edge_ngram_custom_example",
  settings: {
    analysis: {
      analyzer: {
        default: {
          tokenizer: "whitespace",
          filter: ["3_5_edgegrams"],
        },
      },
      filter: {
        "3_5_edgegrams": {
          type: "edge_ngram",
          min_gram: 3,
          max_gram: 5,
        },
      },
    },
  },
});
console.log(response);
PUT edge_ngram_custom_example
{
  "settings": {
    "analysis": {
      "analyzer": {
        "default": {
          "tokenizer": "whitespace",
          "filter": [ "3_5_edgegrams" ]
        }
      },
      "filter": {
        "3_5_edgegrams": {
          "type": "edge_ngram",
          "min_gram": 3,
          "max_gram": 5
        }
      }
    }
  }
}

max_gram 参数的限制

编辑

edge_ngram 过滤器的 max_gram 值限制了词元的字符长度。当 edge_ngram 过滤器与索引分析器一起使用时,这意味着搜索词的长度超过 max_gram 长度可能与任何索引的词条都不匹配。

例如,如果 max_gram3,则搜索 apple 将不会匹配索引的词条 app

为了解决这个问题,您可以使用 truncate 过滤器和搜索分析器来将搜索词缩短到 max_gram 字符长度。但是,这可能会返回不相关的结果。

例如,如果 max_gram3 并且搜索词被截断为三个字符,则搜索词 apple 将被缩短为 app。这意味着搜索 apple 将返回任何与 app 匹配的索引词条,例如 applysnappedapple

我们建议测试这两种方法,以了解哪种方法最适合您的用例和所需的搜索体验。