强制合并 API

编辑

强制对一个或多个索引的分片进行合并。对于数据流,此 API 会强制合并数据流底层索引的分片。

resp = client.indices.forcemerge(
    index="my-index-000001",
)
print(resp)
response = client.indices.forcemerge(
  index: 'my-index-000001'
)
puts response
const response = await client.indices.forcemerge({
  index: "my-index-000001",
});
console.log(response);
POST /my-index-000001/_forcemerge

请求

编辑

POST /<target>/_forcemerge

POST /_forcemerge

先决条件

编辑
  • 如果启用了 Elasticsearch 安全功能,则您必须拥有目标数据流、索引或别名的maintenancemanage 索引权限

描述

编辑

使用强制合并 API 来强制对一个或多个索引的分片进行合并。合并通过将一些分段合并在一起,减少每个分段中的分段数量,并释放已删除文档使用的空间。合并通常会自动进行,但有时手动触发合并也很有用。

我们建议只对只读索引(表示索引不再接收写入)进行强制合并。 更新或删除文档时,旧版本不会立即删除,而是软删除并标记为“墓碑”。这些软删除的文档会在常规分段合并期间自动清理。但是,强制合并可能会导致生成非常大的(> 5GB)分段,这些分段不符合常规合并的条件。因此,软删除文档的数量可能会迅速增加,导致磁盘使用率更高,搜索性能更差。如果您定期强制合并接收写入的索引,这还会使快照更加昂贵,因为无法增量备份新文档。

强制合并期间的阻塞

编辑

对该 API 的调用会阻塞,直到合并完成(除非请求包含 wait_for_completion=false,默认为 true)。如果在完成之前客户端连接丢失,则强制合并过程将在后台继续。对相同索引进行强制合并的任何新请求也将阻塞,直到正在进行的强制合并完成。

异步运行强制合并

编辑

如果请求包含wait_for_completion=false,Elasticsearch 将执行一些预检,启动请求并返回一个任务,您可以使用它来获取任务的状态。但是,您无法取消此任务,因为强制合并任务不可取消。Elasticsearch 会在_tasks/<task_id>处将此任务的记录创建为文档。完成任务后,应删除任务文档,以便 Elasticsearch 可以回收空间。

强制合并多个索引

编辑

您可以通过定位以下目标,使用单个请求强制合并多个索引:

  • 包含多个底层索引的一个或多个数据流
  • 多个索引
  • 一个或多个别名
  • 集群中的所有数据流和索引

每个目标分片都使用 force_merge线程池 单独进行强制合并。默认情况下,每个节点只有一个force_merge线程,这意味着该节点上的分片将一次一个地进行强制合并。如果您扩展节点上的force_merge线程池,则它将并行强制合并其分片。

强制合并会使正在合并的分片的存储空间暂时增加,因为它可能需要多达其大小三倍的可用空间(如果max_num_segments参数设置为1,则需要重写所有分段到一个新的分段)。

路径参数

编辑
<target>
(可选,字符串) 用于限制请求的数据流、索引和别名的逗号分隔列表。支持通配符(*)。要定位所有数据流和索引,请省略此参数或使用*_all

查询参数

编辑
allow_no_indices

(可选,布尔值) 如果为false,如果任何通配符表达式、索引别名_all值仅定位缺失或关闭的索引,则请求将返回错误。即使请求定位其他打开的索引,此行为也适用。例如,如果索引以foo开头,但没有索引以bar开头,则定位foo*,bar*的请求将返回错误。

默认为true

expand_wildcards

(可选,字符串) 通配符模式可以匹配的索引类型。如果请求可以定位数据流,则此参数决定通配符表达式是否匹配隐藏的数据流。支持逗号分隔的值,例如open,hidden。有效值为:

all
匹配任何数据流或索引,包括隐藏的数据流或索引。
open
匹配打开的、非隐藏的索引。也匹配任何非隐藏的数据流。
closed
匹配关闭的、非隐藏的索引。也匹配任何非隐藏的数据流。数据流无法关闭。
hidden
匹配隐藏的数据流和隐藏的索引。必须与openclosed或两者组合使用。
none
不接受通配符模式。

默认为open

flush
(可选,布尔值) 如果为true,则 Elasticsearch 在强制合并后对索引执行刷新。默认为true
ignore_unavailable
(可选,布尔值) 如果为false,如果请求的目标是缺失或关闭的索引,则返回错误。默认为false
max_num_segments

(可选,整数) 要合并的分段数。要完全合并索引,请将其设置为1

默认为检查是否需要执行合并。如果需要,则执行合并。

您不能在同一个请求中指定此参数和only_expunge_deletes

only_expunge_deletes

(可选,布尔值) 如果为true,则清除所有包含超过index.merge.policy.expunge_deletes_allowed(默认为 10%)已删除文档的分段。默认为false

在 Lucene 中,文档不会从分段中删除;只是被标记为已删除。在合并期间,将创建一个不包含这些文档删除的新分段。

您不能在同一个请求中指定此参数和max_num_segments

wait_for_completion

(可选,布尔值) 如果为true,则请求将阻塞,直到操作完成。默认为true

示例

编辑

强制合并特定数据流或索引

编辑
resp = client.indices.forcemerge(
    index="my-index-000001",
)
print(resp)
response = client.indices.forcemerge(
  index: 'my-index-000001'
)
puts response
const response = await client.indices.forcemerge({
  index: "my-index-000001",
});
console.log(response);
POST /my-index-000001/_forcemerge

强制合并多个数据流或索引

编辑
resp = client.indices.forcemerge(
    index="my-index-000001,my-index-000002",
)
print(resp)
response = client.indices.forcemerge(
  index: 'my-index-000001,my-index-000002'
)
puts response
const response = await client.indices.forcemerge({
  index: "my-index-000001,my-index-000002",
});
console.log(response);
POST /my-index-000001,my-index-000002/_forcemerge

强制合并所有索引

编辑
resp = client.indices.forcemerge()
print(resp)
response = client.indices.forcemerge
puts response
const response = await client.indices.forcemerge();
console.log(response);
POST /_forcemerge

数据流和基于时间的索引

编辑

强制合并对于管理数据流的较旧的底层索引和其他基于时间的索引非常有用,尤其是在切换之后。在这些情况下,每个索引只接收特定时间段的索引流量。一旦索引不再接收写入,就可以将其分片强制合并为单个分段。

resp = client.indices.forcemerge(
    index=".ds-my-data-stream-2099.03.07-000001",
    max_num_segments="1",
)
print(resp)
response = client.indices.forcemerge(
  index: '.ds-my-data-stream-2099.03.07-000001',
  max_num_segments: 1
)
puts response
const response = await client.indices.forcemerge({
  index: ".ds-my-data-stream-2099.03.07-000001",
  max_num_segments: 1,
});
console.log(response);
POST /.ds-my-data-stream-2099.03.07-000001/_forcemerge?max_num_segments=1

这可能是一个好主意,因为单分段分片有时可以使用更简单、更高效的数据结构来执行搜索。