› › ›

边缘 n-gram 词元过滤器

编辑

边缘 n-gram 词元过滤器

编辑

从词元的开头形成指定长度的 n-gram。

例如，您可以使用 edge_ngram 词元过滤器将 quick 更改为 qu。

当未自定义时，该过滤器默认创建 1 个字符的边缘 n-gram。

此过滤器使用 Lucene 的 EdgeNGramTokenFilter。

edge_ngram 过滤器类似于 ngram 词元过滤器。但是，edge_ngram 仅输出从词元开头开始的 n-gram。这些边缘 n-gram 对于即时搜索查询非常有用。

示例

编辑

以下 analyze API 请求使用 edge_ngram 过滤器将 the quick brown fox jumps 转换为 1 个字符和 2 个字符的边缘 n-gram

resp = client.indices.analyze(
    tokenizer="standard",
    filter=[
        {
            "type": "edge_ngram",
            "min_gram": 1,
            "max_gram": 2
        }
    ],
    text="the quick brown fox jumps",
)
print(resp)

response = client.indices.analyze(
  body: {
    tokenizer: 'standard',
    filter: [
      {
        type: 'edge_ngram',
        min_gram: 1,
        max_gram: 2
      }
    ],
    text: 'the quick brown fox jumps'
  }
)
puts response

const response = await client.indices.analyze({
  tokenizer: "standard",
  filter: [
    {
      type: "edge_ngram",
      min_gram: 1,
      max_gram: 2,
    },
  ],
  text: "the quick brown fox jumps",
});
console.log(response);

GET _analyze
{
  "tokenizer": "standard",
  "filter": [
    { "type": "edge_ngram",
      "min_gram": 1,
      "max_gram": 2
    }
  ],
  "text": "the quick brown fox jumps"
}

Copy as curl Try in Elastic

该过滤器产生以下词元

[ t, th, q, qu, b, br, f, fo, j, ju ]

添加到分析器

编辑

以下 create index API 请求使用 edge_ngram 过滤器来配置新的自定义分析器。

resp = client.indices.create(
    index="edge_ngram_example",
    settings={
        "analysis": {
            "analyzer": {
                "standard_edge_ngram": {
                    "tokenizer": "standard",
                    "filter": [
                        "edge_ngram"
                    ]
                }
            }
        }
    },
)
print(resp)

response = client.indices.create(
  index: 'edge_ngram_example',
  body: {
    settings: {
      analysis: {
        analyzer: {
          standard_edge_ngram: {
            tokenizer: 'standard',
            filter: [
              'edge_ngram'
            ]
          }
        }
      }
    }
  }
)
puts response

const response = await client.indices.create({
  index: "edge_ngram_example",
  settings: {
    analysis: {
      analyzer: {
        standard_edge_ngram: {
          tokenizer: "standard",
          filter: ["edge_ngram"],
        },
      },
    },
  },
});
console.log(response);

PUT edge_ngram_example
{
  "settings": {
    "analysis": {
      "analyzer": {
        "standard_edge_ngram": {
          "tokenizer": "standard",
          "filter": [ "edge_ngram" ]
        }
      }
    }
  }
}

Copy as curl Try in Elastic

可配置参数

编辑

max_gram

（可选，整数）一个 gram 的最大字符长度。对于自定义词元过滤器，默认为 2。对于内置的 edge_ngram 过滤器，默认为 1。

请参阅 max_gram 参数的限制。

min_gram

（可选，整数）一个 gram 的最小字符长度。默认为 1。

preserve_original

（可选，布尔值）当设置为 true 时，发出原始词元。默认为 false。

side

（可选，字符串） [8.16.0] 在 8.16.0 中已弃用。使用 <<analysis-reverse-tokenfilter 。指示是从 front 还是 back 截断词元。默认为 front。

自定义

编辑

要自定义 edge_ngram 过滤器，请复制它以创建新的自定义词元过滤器的基础。您可以使用其可配置参数修改过滤器。

例如，以下请求创建一个自定义的 edge_ngram 过滤器，该过滤器形成 3-5 个字符之间的 n-gram。

resp = client.indices.create(
    index="edge_ngram_custom_example",
    settings={
        "analysis": {
            "analyzer": {
                "default": {
                    "tokenizer": "whitespace",
                    "filter": [
                        "3_5_edgegrams"
                    ]
                }
            },
            "filter": {
                "3_5_edgegrams": {
                    "type": "edge_ngram",
                    "min_gram": 3,
                    "max_gram": 5
                }
            }
        }
    },
)
print(resp)

response = client.indices.create(
  index: 'edge_ngram_custom_example',
  body: {
    settings: {
      analysis: {
        analyzer: {
          default: {
            tokenizer: 'whitespace',
            filter: [
              '3_5_edgegrams'
            ]
          }
        },
        filter: {
          "3_5_edgegrams": {
            type: 'edge_ngram',
            min_gram: 3,
            max_gram: 5
          }
        }
      }
    }
  }
)
puts response

const response = await client.indices.create({
  index: "edge_ngram_custom_example",
  settings: {
    analysis: {
      analyzer: {
        default: {
          tokenizer: "whitespace",
          filter: ["3_5_edgegrams"],
        },
      },
      filter: {
        "3_5_edgegrams": {
          type: "edge_ngram",
          min_gram: 3,
          max_gram: 5,
        },
      },
    },
  },
});
console.log(response);

PUT edge_ngram_custom_example
{
  "settings": {
    "analysis": {
      "analyzer": {
        "default": {
          "tokenizer": "whitespace",
          "filter": [ "3_5_edgegrams" ]
        }
      },
      "filter": {
        "3_5_edgegrams": {
          "type": "edge_ngram",
          "min_gram": 3,
          "max_gram": 5
        }
      }
    }
  }
}

Copy as curl Try in Elastic

`max_gram` 参数的限制

编辑

edge_ngram 过滤器的 max_gram 值限制了词元的字符长度。当 edge_ngram 过滤器与索引分析器一起使用时，这意味着搜索词的长度超过 max_gram 长度可能与任何索引的词条都不匹配。

例如，如果 max_gram 为 3，则搜索 apple 将不会匹配索引的词条 app。

为了解决这个问题，您可以使用 truncate 过滤器和搜索分析器来将搜索词缩短到 max_gram 字符长度。但是，这可能会返回不相关的结果。

例如，如果 max_gram 为 3 并且搜索词被截断为三个字符，则搜索词 apple 将被缩短为 app。这意味着搜索 apple 将返回任何与 app 匹配的索引词条，例如 apply、snapped 和 apple。

我们建议测试这两种方法，以了解哪种方法最适合您的用例和所需的搜索体验。

« 字典分解词元过滤器省略词元过滤器 »

Was this helpful?

Feedback

The Search AI Company

ELK Stack

Elastic Cloud

Generative AI

Search

Security

Observability

By solution

Industries

Customer spotlight

Research

Build

Learn

Connect

边缘 n-gram 词元过滤器

边缘 n-gram 词元过滤器

示例

添加到分析器

可配置参数

自定义

`max_gram` 参数的限制

Follow us

About us

Join us

Partners

Trust & Security

Investor relations

Excellence Awards

About us

Join us

Partners

Trust & Security

Investor relations

Excellence Awards

The Search AI Company

Generative AI

Search

Security

Observability

By solution

Industries

边缘 n-gram 词元过滤器

边缘 n-gram 词元过滤器

示例

添加到分析器

可配置参数

自定义

max_gram 参数的限制

Follow us

About us

Join us

Partners

Trust & Security

Investor relations

Excellence Awards

`max_gram` 参数的限制