MinHash 词元过滤器

编辑

使用 MinHash 技术为词元流生成签名。您可以使用 MinHash 签名来估算文档的相似性。请参阅使用 min_hash 词元过滤器进行相似性搜索

min_hash 过滤器按以下顺序对词元流执行操作

  1. 对流中的每个词元进行哈希。
  2. 将哈希值分配到存储桶,仅保留每个存储桶的最小哈希值。
  3. 输出每个存储桶的最小哈希值作为词元流。

此过滤器使用 Lucene 的 MinHashFilter

可配置参数

编辑
bucket_count
(可选,整数)哈希值分配到的存储桶数量。默认为 512
hash_count
(可选,整数)对流中的每个词元进行哈希处理的方式的数量。默认为 1
hash_set_size

(可选,整数)从每个存储桶保留的哈希值数量。默认为 1

哈希值按升序大小保留,从存储桶的最小哈希值开始。

with_rotation
(可选,布尔值)如果为 true,则当 hash_set_size1 时,过滤器会使用其圆形右侧第一个非空存储桶的值填充空存储桶。如果 bucket_count 参数大于 1,则此参数默认为 true。否则,此参数默认为 false

配置 min_hash 过滤器的提示

编辑
  • min_hash 过滤器输入词元通常应为从 shingle 词元过滤器生成的 k-字词 shingles。您应选择足够大的 k,以使任何给定 shingle 在文档中出现的概率较低。同时,由于内部每个 shingle 都被哈希为 128 位哈希值,因此您应选择足够小的 k,以便所有可能的不同 k-字词 shingles 都可以哈希为 128 位哈希值,且冲突最少。
  • 我们建议您测试 hash_countbucket_counthash_set_size 参数的不同参数

    • 为了提高精度,请增加 bucket_counthash_set_size 参数。更高的 bucket_counthash_set_size 值会增加将不同词元索引到不同存储桶的可能性。
    • 为了提高召回率,请增加 hash_count 参数的值。例如,将 hash_count 设置为 2 会以两种不同的方式对每个词元进行哈希处理,从而增加搜索的潜在候选词的数量。
  • 默认情况下,min_hash 过滤器为每个文档生成 512 个词元。每个词元的大小为 16 个字节。这意味着每个文档的大小将增加大约 8KB。
  • min_hash 过滤器用于 Jaccard 相似度。这意味着文档包含某个词元的次数并不重要,重要的是它是否包含该词元。

使用 min_hash 词元过滤器进行相似性搜索

编辑

min_hash 词元过滤器允许您对文档进行哈希处理以进行相似性搜索。相似性搜索或最近邻搜索是一个复杂的问题。一种简单的解决方案需要对查询文档和索引中的每个文档进行详尽的成对比较。如果索引很大,这是一个禁止的操作。为了使相似性搜索更加实用且计算可行,已经开发了许多近似最近邻搜索解决方案。其中一个解决方案涉及文档的哈希处理。

文档以一种方式进行哈希处理,使得相似的文档更可能生成相同的哈希码并放入相同的哈希存储桶,而不同的文档更可能被哈希到不同的哈希存储桶。这种类型的哈希处理称为局部敏感哈希 (LSH)。

根据文档之间相似性的构成方式,已经提出了各种 LSH 函数 。 对于 Jaccard 相似度,一种流行的 LSH 函数是 MinHash。MinHash 为文档生成签名的一般思路是对整个索引词汇表应用随机排列(词汇表的随机编号),并记录该排列中文档的最小值(文档中存在的词汇表的最小编号)。排列运行多次;将所有排列的最小值组合起来将构成文档的签名。

实际上,选择多个哈希函数而不是随机排列。哈希函数计算文档的每个词元的哈希码,并在其中选择最小的哈希码。来自所有哈希函数的最小哈希码组合在一起以形成文档的签名。

自定义并添加到分析器

编辑

要自定义 min_hash 过滤器,请复制它以创建新的自定义词元过滤器的基础。您可以使用其可配置参数来修改过滤器。

例如,以下 创建索引 API 请求使用以下自定义词元过滤器来配置新的 自定义分析器

  • my_shingle_filter,一个自定义的 shingle 过滤器my_shingle_filter 仅输出五个单词的 shingles。
  • my_minhash_filter,一个自定义的 min_hash 过滤器。my_minhash_filter 对每个五个单词的 shingle 进行一次哈希处理。然后,它将哈希值分配到 512 个存储桶中,仅保留每个存储桶的最小哈希值。

该请求还将自定义分析器分配给 fingerprint 字段映射。

resp = client.indices.create(
    index="my-index-000001",
    settings={
        "analysis": {
            "filter": {
                "my_shingle_filter": {
                    "type": "shingle",
                    "min_shingle_size": 5,
                    "max_shingle_size": 5,
                    "output_unigrams": False
                },
                "my_minhash_filter": {
                    "type": "min_hash",
                    "hash_count": 1,
                    "bucket_count": 512,
                    "hash_set_size": 1,
                    "with_rotation": True
                }
            },
            "analyzer": {
                "my_analyzer": {
                    "tokenizer": "standard",
                    "filter": [
                        "my_shingle_filter",
                        "my_minhash_filter"
                    ]
                }
            }
        }
    },
    mappings={
        "properties": {
            "fingerprint": {
                "type": "text",
                "analyzer": "my_analyzer"
            }
        }
    },
)
print(resp)
response = client.indices.create(
  index: 'my-index-000001',
  body: {
    settings: {
      analysis: {
        filter: {
          my_shingle_filter: {
            type: 'shingle',
            min_shingle_size: 5,
            max_shingle_size: 5,
            output_unigrams: false
          },
          my_minhash_filter: {
            type: 'min_hash',
            hash_count: 1,
            bucket_count: 512,
            hash_set_size: 1,
            with_rotation: true
          }
        },
        analyzer: {
          my_analyzer: {
            tokenizer: 'standard',
            filter: [
              'my_shingle_filter',
              'my_minhash_filter'
            ]
          }
        }
      }
    },
    mappings: {
      properties: {
        fingerprint: {
          type: 'text',
          analyzer: 'my_analyzer'
        }
      }
    }
  }
)
puts response
const response = await client.indices.create({
  index: "my-index-000001",
  settings: {
    analysis: {
      filter: {
        my_shingle_filter: {
          type: "shingle",
          min_shingle_size: 5,
          max_shingle_size: 5,
          output_unigrams: false,
        },
        my_minhash_filter: {
          type: "min_hash",
          hash_count: 1,
          bucket_count: 512,
          hash_set_size: 1,
          with_rotation: true,
        },
      },
      analyzer: {
        my_analyzer: {
          tokenizer: "standard",
          filter: ["my_shingle_filter", "my_minhash_filter"],
        },
      },
    },
  },
  mappings: {
    properties: {
      fingerprint: {
        type: "text",
        analyzer: "my_analyzer",
      },
    },
  },
});
console.log(response);
PUT /my-index-000001
{
  "settings": {
    "analysis": {
      "filter": {
        "my_shingle_filter": {      
          "type": "shingle",
          "min_shingle_size": 5,
          "max_shingle_size": 5,
          "output_unigrams": false
        },
        "my_minhash_filter": {
          "type": "min_hash",
          "hash_count": 1,          
          "bucket_count": 512,      
          "hash_set_size": 1,       
          "with_rotation": true     
        }
      },
      "analyzer": {
        "my_analyzer": {
          "tokenizer": "standard",
          "filter": [
            "my_shingle_filter",
            "my_minhash_filter"
          ]
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "fingerprint": {
        "type": "text",
        "analyzer": "my_analyzer"
      }
    }
  }
}

配置自定义 shingle 过滤器以仅输出五个单词的 shingles。

流中的每个五个单词的 shingle 都会进行一次哈希处理。

哈希值被分配到 512 个存储桶。

仅保留每个存储桶中最小的哈希值。

过滤器使用相邻存储桶的值填充空存储桶。