› › ›

获得一致的评分

Elasticsearch 使用分片和副本的事实，在获得良好评分方面增加了一些挑战。

评分不可重现

假设同一个用户连续两次运行相同的请求，并且文档两次返回的顺序不同，这不是一个非常糟糕的体验吗？不幸的是，如果您有副本（index.number_of_replicas 大于 0），这种情况可能会发生。原因是 Elasticsearch 以循环方式选择查询应该发送到的分片，因此如果您连续运行相同的查询两次，很可能会发送到同一个分片的不同副本。

现在为什么这是一个问题呢？索引统计信息是评分的重要组成部分。并且由于已删除的文档，这些索引统计信息在同一分片的副本之间可能会有所不同。您可能知道，当文档被删除或更新时，旧文档不会立即从索引中删除，它只是被标记为已删除，并且只有在下次合并此旧文档所属的段时才会从磁盘中删除。然而，出于实际原因，这些已删除的文档会被纳入索引统计信息。因此，想象一下，主分片刚刚完成了一个大型合并，删除了大量已删除的文档，那么它的索引统计信息可能与副本（仍然有大量已删除的文档）有很大的不同，因此评分也会不同。

解决此问题的推荐方法是使用一个字符串来标识已登录的用户（例如用户 ID 或会话 ID）作为偏好。这确保了给定用户的所有查询始终会命中相同的分片，因此评分在查询之间保持更加一致。

这种解决方法还有另一个好处：当两个文档具有相同的评分时，默认情况下它们将按其内部 Lucene 文档 ID（与 _id 无关）排序。然而，这些文档 ID 在同一分片的副本之间可能会有所不同。因此，通过始终命中相同的分片，我们将获得具有相同评分的文档更一致的排序。

获得一致的评分

获得一致的评分

评分不可重现

相关性看起来错误