完整集群重启和滚动重启
编辑完整集群重启和滚动重启
编辑在某些情况下,您可能需要执行完整集群重启或滚动重启。 完整集群重启是指关闭并重启集群中的所有节点,而滚动重启是指一次仅关闭一个节点,从而保持服务不中断。
超出低水位阈值的节点重启速度会很慢。 在重启节点之前,将磁盘使用率降低到低水位以下。
完整集群重启
编辑-
禁用分片分配。
当您关闭一个数据节点时,分配过程会等待
index.unassigned.node_left.delayed_timeout
(默认情况下为一分钟),然后开始将该节点上的分片复制到集群中的其他节点,这可能涉及大量的 I/O。 由于该节点很快将被重启,因此这种 I/O 是不必要的。 您可以通过在关闭数据节点之前禁用副本的分配来避免争夺时间。resp = client.cluster.put_settings( persistent={ "cluster.routing.allocation.enable": "primaries" }, ) print(resp)
response = client.cluster.put_settings( body: { persistent: { 'cluster.routing.allocation.enable' => 'primaries' } } ) puts response
const response = await client.cluster.putSettings({ persistent: { "cluster.routing.allocation.enable": "primaries", }, }); console.log(response);
PUT _cluster/settings { "persistent": { "cluster.routing.allocation.enable": "primaries" } }
-
停止索引并执行刷新。
执行刷新可以加快分片恢复。
resp = client.indices.flush() print(resp)
response = client.indices.flush puts response
const response = await client.indices.flush(); console.log(response);
POST /_flush
-
临时停止与活动机器学习作业和数据源相关的任务。 (可选)
机器学习功能需要特定的订阅。
当您关闭集群时,有两种选择来处理机器学习作业和数据源
-
使用设置升级模式 API 临时停止与机器学习作业和数据源相关的任务,并阻止新作业打开
resp = client.ml.set_upgrade_mode( enabled=True, ) print(resp)
response = client.ml.set_upgrade_mode( enabled: true ) puts response
const response = await client.ml.setUpgradeMode({ enabled: "true", }); console.log(response);
POST _ml/set_upgrade_mode?enabled=true
当您禁用升级模式时,作业会使用自动保存的最后一个模型状态恢复。 此选项避免了在关闭期间管理活动作业的开销,并且比显式停止数据源和关闭作业更快。
- 停止所有数据源并关闭所有作业。 此选项会在关闭时保存模型状态。 当您在集群重启后重新打开作业时,它们将使用完全相同的模型。 但是,保存最新的模型状态比使用升级模式花费的时间更长,特别是当您有大量作业或具有大型模型状态的作业时。
-
-
关闭所有节点。
-
如果您正在使用
systemd
运行 Elasticsearchsudo systemctl stop elasticsearch.service
-
如果您正在使用 SysV
init
运行 Elasticsearchsudo -i service elasticsearch stop
-
如果您正在将 Elasticsearch 作为守护程序运行
kill $(cat pid)
-
- 执行任何需要的更改。
-
重启节点。
如果您有专用的主节点,请先启动它们,并等待它们形成一个集群并选举一个主节点,然后再继续处理您的数据节点。 您可以通过查看日志来检查进度。
一旦足够多的符合主节点条件的节点相互发现,它们就会形成一个集群并选举一个主节点。 此时,您可以使用cat health和cat nodes API 来监视节点加入集群的情况
resp = client.cat.health() print(resp) resp1 = client.cat.nodes() print(resp1)
response = client.cat.health puts response response = client.cat.nodes puts response
const response = await client.cat.health(); console.log(response); const response1 = await client.cat.nodes(); console.log(response1);
GET _cat/health GET _cat/nodes
_cat/health
返回的status
列显示集群中每个节点的运行状况:red
、yellow
或green
。 -
等待所有节点加入集群并报告黄色状态。
当一个节点加入集群时,它会开始恢复本地存储的任何主分片。
_cat/health
API 最初报告的status
为red
,表示并非所有主分片都已分配。一旦节点恢复其本地分片,集群
status
就会切换为yellow
,表示所有主分片都已恢复,但并非所有副本分片都已分配。 这是意料之中的,因为您尚未重新启用分配。 将副本的分配延迟到所有节点都为yellow
时,允许主节点将副本分配给已经具有本地分片副本的节点。 -
重新启用分配。
当所有节点都已加入集群并恢复其主分片后,通过将
cluster.routing.allocation.enable
恢复为其默认值来重新启用分配resp = client.cluster.put_settings( persistent={ "cluster.routing.allocation.enable": None }, ) print(resp)
response = client.cluster.put_settings( body: { persistent: { 'cluster.routing.allocation.enable' => nil } } ) puts response
const response = await client.cluster.putSettings({ persistent: { "cluster.routing.allocation.enable": null, }, }); console.log(response);
PUT _cluster/settings { "persistent": { "cluster.routing.allocation.enable": null } }
重新启用分配后,集群开始将副本分片分配给数据节点。 此时,可以安全地恢复索引和搜索,但是如果您可以等到所有主分片和副本分片都已成功分配,并且所有节点的状态都为
green
,则您的集群将恢复得更快。您可以使用
_cat/health
和_cat/recovery
API 监视进度resp = client.cat.health() print(resp) resp1 = client.cat.recovery() print(resp1)
response = client.cat.health puts response response = client.cat.recovery puts response
const response = await client.cat.health(); console.log(response); const response1 = await client.cat.recovery(); console.log(response1);
GET _cat/health GET _cat/recovery
-
重启机器学习作业。 (可选)
如果您临时停止了与机器学习作业相关的任务,请使用 设置升级模式 API 将其恢复为活动状态
resp = client.ml.set_upgrade_mode( enabled=False, ) print(resp)
response = client.ml.set_upgrade_mode( enabled: false ) puts response
const response = await client.ml.setUpgradeMode({ enabled: "false", }); console.log(response);
POST _ml/set_upgrade_mode?enabled=false
如果您在停止节点之前关闭了所有机器学习作业,请从 Kibana 或使用 打开作业 和 启动数据源 API 打开作业并启动数据源。
滚动重启
编辑-
禁用分片分配。
当您关闭一个数据节点时,分配过程会等待
index.unassigned.node_left.delayed_timeout
(默认情况下为一分钟),然后开始将该节点上的分片复制到集群中的其他节点,这可能涉及大量的 I/O。 由于该节点很快将被重启,因此这种 I/O 是不必要的。 您可以通过在关闭数据节点之前禁用副本的分配来避免争夺时间。resp = client.cluster.put_settings( persistent={ "cluster.routing.allocation.enable": "primaries" }, ) print(resp)
response = client.cluster.put_settings( body: { persistent: { 'cluster.routing.allocation.enable' => 'primaries' } } ) puts response
const response = await client.cluster.putSettings({ persistent: { "cluster.routing.allocation.enable": "primaries", }, }); console.log(response);
PUT _cluster/settings { "persistent": { "cluster.routing.allocation.enable": "primaries" } }
-
停止非必要的索引并执行刷新。 (可选)
虽然您可以在滚动重启期间继续索引,但如果您临时停止非必要的索引并执行刷新,则分片恢复会更快。
resp = client.indices.flush() print(resp)
response = client.indices.flush puts response
const response = await client.indices.flush(); console.log(response);
POST /_flush
-
临时停止与活动机器学习作业和数据源相关的任务。 (可选)
机器学习功能需要特定的订阅。
当您关闭集群时,有两种选择来处理机器学习作业和数据源
-
使用设置升级模式 API 临时停止与机器学习作业和数据源相关的任务,并阻止新作业打开
resp = client.ml.set_upgrade_mode( enabled=True, ) print(resp)
response = client.ml.set_upgrade_mode( enabled: true ) puts response
const response = await client.ml.setUpgradeMode({ enabled: "true", }); console.log(response);
POST _ml/set_upgrade_mode?enabled=true
当您禁用升级模式时,作业会使用自动保存的最后一个模型状态恢复。 此选项避免了在关闭期间管理活动作业的开销,并且比显式停止数据源和关闭作业更快。
- 停止所有数据源并关闭所有作业。 此选项会在关闭时保存模型状态。 当您在集群重启后重新打开作业时,它们将使用完全相同的模型。 但是,保存最新的模型状态比使用升级模式花费的时间更长,特别是当您有大量作业或具有大型模型状态的作业时。
- 如果您执行滚动重启,您还可以让机器学习作业运行。 当您关闭一个机器学习节点时,其作业会自动移动到另一个节点并恢复模型状态。 此选项使您的作业在关闭期间可以继续运行,但会增加集群的负载。
-
-
在滚动重启的情况下,关闭单个节点。
-
如果您正在使用
systemd
运行 Elasticsearchsudo systemctl stop elasticsearch.service
-
如果您正在使用 SysV
init
运行 Elasticsearchsudo -i service elasticsearch stop
-
如果您正在将 Elasticsearch 作为守护程序运行
kill $(cat pid)
-
- 执行任何需要的更改。
-
重启您更改的节点。
启动节点,并通过检查日志文件或提交
_cat/nodes
请求来确认其已加入集群resp = client.cat.nodes() print(resp)
response = client.cat.nodes puts response
const response = await client.cat.nodes(); console.log(response);
GET _cat/nodes
-
重新启用分片分配。
对于数据节点,一旦节点加入集群,请删除
cluster.routing.allocation.enable
设置以启用分片分配并开始使用该节点resp = client.cluster.put_settings( persistent={ "cluster.routing.allocation.enable": None }, ) print(resp)
response = client.cluster.put_settings( body: { persistent: { 'cluster.routing.allocation.enable' => nil } } ) puts response
const response = await client.cluster.putSettings({ persistent: { "cluster.routing.allocation.enable": null, }, }); console.log(response);
PUT _cluster/settings { "persistent": { "cluster.routing.allocation.enable": null } }
-
在滚动重启的情况下重复。
当节点恢复并且集群稳定后,对每个需要更改的节点重复这些步骤。
-
重启机器学习作业。 (可选)
如果您临时停止了与机器学习作业相关的任务,请使用 设置升级模式 API 将其恢复为活动状态
resp = client.ml.set_upgrade_mode( enabled=False, ) print(resp)
response = client.ml.set_upgrade_mode( enabled: false ) puts response
const response = await client.ml.setUpgradeMode({ enabled: "false", }); console.log(response);
POST _ml/set_upgrade_mode?enabled=false
如果您在停止节点之前关闭了所有机器学习作业,请从 Kibana 或使用 打开作业 和 启动数据源 API 打开作业并启动数据源。