强制合并 API编辑

强制对一个或多个索引的分片执行 合并。对于数据流,API 会强制对其支持索引的分片执行合并。

response = client.indices.forcemerge(
  index: 'my-index-000001'
)
puts response
POST /my-index-000001/_forcemerge

请求编辑

POST /<target>/_forcemerge

POST /_forcemerge

先决条件编辑

  • 如果启用了 Elasticsearch 安全功能,则您必须对目标数据流、索引或别名具有 maintenancemanage 索引权限

描述编辑

使用强制合并 API 可以强制对一个或多个索引的分片执行 合并。合并操作通过将一些段合并在一起来减少每个分片中的段数,并且还会释放已删除文档占用的空间。合并通常会自动进行,但有时手动触发合并也很有用。

我们建议仅对只读索引(即不再接收写入的索引)进行强制合并。 当文档被更新或删除时,旧版本不会立即被删除,而是被软删除并标记为“墓碑”。这些软删除的文档会在定期段合并期间自动清理。但是强制合并可能会导致生成非常大(> 5GB)的段,这些段不符合定期合并的条件。因此,软删除文档的数量可能会迅速增长,从而导致更高的磁盘使用率和更差的搜索性能。如果您定期强制合并接收写入的索引,这也可能会使快照更加昂贵,因为新文档无法增量备份。

强制合并期间的阻塞编辑

对此 API 的调用将阻塞,直到合并完成(除非请求包含 wait_for_completion=false,默认为 true)。如果在完成之前客户端连接断开,则强制合并过程将在后台继续。对相同索引进行强制合并的任何新请求也将阻塞,直到正在进行的强制合并完成。

异步运行强制合并编辑

如果请求包含 wait_for_completion=false,Elasticsearch 会执行一些预检,启动请求,并返回一个 task,您可以使用它来获取任务的状态。但是,您无法取消此任务,因为强制合并任务是不可取消的。Elasticsearch 会在 _tasks/<task_id> 创建此任务的记录作为文档。完成任务后,您应该删除任务文档,以便 Elasticsearch 可以回收空间。

强制合并多个索引编辑

您可以通过以下方式使用单个请求强制合并多个索引:

  • 包含多个支持索引的一个或多个数据流
  • 多个索引
  • 一个或多个别名
  • 集群中的所有数据流和索引

每个目标分片都使用 force_merge 线程池 单独进行强制合并。默认情况下,每个节点只有一个 force_merge 线程,这意味着该节点上的分片将逐个进行强制合并。如果您在节点上扩展 force_merge 线程池,它将并行强制合并其分片。

强制合并会使正在合并的分片的存储空间临时增加,如果 max_num_segments 参数设置为 1,则最多可增加到其大小的两倍,因为所有段都需要重写为一个新段。

路径参数编辑

<target>
(可选,字符串)用于限制请求的数据流、索引和别名的逗号分隔列表。支持通配符 (*)。要定位所有数据流和索引,请省略此参数或使用 *_all

查询参数编辑

allow_no_indices

(可选,布尔值)如果为 false,则如果任何通配符表达式、索引别名_all 值仅定位到缺失或关闭的索引,则请求将返回错误。即使请求定位到其他打开的索引,此行为也适用。例如,如果索引以 foo 开头但没有索引以 bar 开头,则定位到 foo*,bar* 的请求将返回错误。

默认为 true

expand_wildcards

(可选,字符串)通配符模式可以匹配的索引类型。如果请求可以定位数据流,则此参数确定通配符表达式是否匹配隐藏数据流。支持逗号分隔值,例如 open,hidden。有效值为:

all
匹配任何数据流或索引,包括 隐藏的 数据流或索引。
open
匹配打开的、非隐藏的索引。也匹配任何非隐藏的数据流。
closed
匹配关闭的、非隐藏的索引。也匹配任何非隐藏的数据流。数据流不能关闭。
hidden
匹配隐藏的数据流和隐藏的索引。必须与 openclosed 或两者结合使用。
none
不接受通配符模式。

默认为 open

flush
(可选,布尔值)如果为 true,Elasticsearch 会在强制合并后对索引执行 刷新。默认为 true
ignore_unavailable
(可选,布尔值)如果为 false,则如果请求定位到缺失或关闭的索引,则请求将返回错误。默认为 false
max_num_segments

(可选,整数)要合并到的段数。要完全合并索引,请将其设置为 1

默认为检查是否需要执行合并。如果是,则执行合并。

您不能在同一个请求中同时指定此参数和 only_expunge_deletes

only_expunge_deletes

(可选,布尔值)如果为 true,则删除所有包含超过 index.merge.policy.expunge_deletes_allowed(默认为 10)百分比的已删除文档的段。默认为 false

在 Lucene 中,文档不会从段中删除;只是标记为已删除。在合并期间,会创建一个不包含这些文档删除的新段。

您不能在同一个请求中同时指定此参数和 max_num_segments

wait_for_completion

(可选,布尔值)如果为 true,则请求将阻塞,直到操作完成。默认为 true

示例编辑

强制合并特定的数据流或索引编辑

response = client.indices.forcemerge(
  index: 'my-index-000001'
)
puts response
POST /my-index-000001/_forcemerge

强制合并多个数据流或索引编辑

response = client.indices.forcemerge(
  index: 'my-index-000001,my-index-000002'
)
puts response
POST /my-index-000001,my-index-000002/_forcemerge

强制合并所有索引编辑

response = client.indices.forcemerge
puts response
POST /_forcemerge

数据流和基于时间的索引编辑

强制合并对于管理数据流的旧支持索引和其他基于时间的索引非常有用,尤其是在 滚动 之后。在这些情况下,每个索引仅在一段时间内接收索引流量。一旦索引不再接收写入,就可以将其分片强制合并到一个段中。

response = client.indices.forcemerge(
  index: '.ds-my-data-stream-2099.03.07-000001',
  max_num_segments: 1
)
puts response
POST /.ds-my-data-stream-2099.03.07-000001/_forcemerge?max_num_segments=1

这可能是一个好主意,因为单段分片有时可以使用更简单、更高效的数据结构来执行搜索。