全集群重启和滚动重启编辑

可能存在需要执行全集群重启或滚动重启的情况。在全集群重启的情况下,您需要关闭并重启集群中的所有节点,而在滚动重启的情况下,您一次只关闭一个节点,因此服务不会中断。

超过低水位阈值的节点重启速度会很慢。在重启节点之前,将磁盘使用率降低到低水位以下。

全集群重启编辑

  1. 禁用分片分配。

    当您关闭数据节点时,分配过程会等待index.unassigned.node_left.delayed_timeout(默认情况下为一分钟)才能开始将该节点上的分片复制到集群中的其他节点,这可能涉及大量 I/O。由于该节点很快就会重启,因此这种 I/O 是不必要的。您可以通过禁用分配副本在关闭数据节点之前来避免与时间赛跑。

    resp = client.cluster.put_settings(
        body={
            "persistent": {"cluster.routing.allocation.enable": "primaries"}
        },
    )
    print(resp)
    response = client.cluster.put_settings(
      body: {
        persistent: {
          'cluster.routing.allocation.enable' => 'primaries'
        }
      }
    )
    puts response
    PUT _cluster/settings
    {
      "persistent": {
        "cluster.routing.allocation.enable": "primaries"
      }
    }
  2. 停止索引并执行刷新操作。

    执行刷新操作可以加快分片恢复速度。

    resp = client.indices.flush()
    print(resp)
    response = client.indices.flush
    puts response
    POST /_flush
  1. 暂时停止与活动机器学习作业和数据馈送相关的任务。(可选)

    机器学习功能需要特定的订阅

    在关闭集群时,您有两个选项可以处理机器学习作业和数据馈送

    • 使用设置升级模式 API暂时停止与机器学习作业和数据馈送相关的任务,并阻止新的作业打开。

      resp = client.ml.set_upgrade_mode(
          enabled="true",
      )
      print(resp)
      response = client.ml.set_upgrade_mode(
        enabled: true
      )
      puts response
      POST _ml/set_upgrade_mode?enabled=true

      当您禁用升级模式时,作业将使用上次自动保存的模型状态恢复。此选项避免了在关闭期间管理活动作业的开销,并且比显式停止数据馈送和关闭作业更快。

    • 停止所有数据馈送并关闭所有作业。此选项将在关闭时保存模型状态。当您在集群重启后重新打开作业时,它们将使用完全相同的模型。但是,保存最新的模型状态比使用升级模式需要更长的时间,尤其是在您有很多作业或作业具有大型模型状态的情况下。
  2. 关闭所有节点。

    • 如果您使用systemd运行 Elasticsearch

      sudo systemctl stop elasticsearch.service
    • 如果您使用 SysV init运行 Elasticsearch

      sudo -i service elasticsearch stop
    • 如果您以守护进程方式运行 Elasticsearch

      kill $(cat pid)
  3. 执行任何必要的更改。
  4. 重启节点。

    如果您有专用的主节点,请先启动它们,并等待它们形成集群并选举出一个主节点,然后再继续操作您的数据节点。您可以查看日志以检查进度。

    一旦足够多的主节点候选节点相互发现,它们就会形成一个集群并选举出一个主节点。此时,您可以使用cat 健康cat 节点 API 来监控加入集群的节点。

    resp = client.cat.health()
    print(resp)
    
    resp = client.cat.nodes()
    print(resp)
    response = client.cat.health
    puts response
    
    response = client.cat.nodes
    puts response
    GET _cat/health
    
    GET _cat/nodes

    _cat/health返回的status列显示了集群中每个节点的健康状况:redyellowgreen

  5. 等待所有节点加入集群并报告状态为黄色。

    当一个节点加入集群时,它会开始恢复存储在本地磁盘上的所有主分片。最初,_cat/health API 会报告statusred,表示并非所有主分片都已分配。

    一旦一个节点恢复了其本地分片,集群status就会切换到yellow,表示所有主分片都已恢复,但并非所有副本分片都已分配。这是预期的,因为您尚未重新启用分配。将副本的分配延迟到所有节点都为yellow,可以让主节点将副本分配到已经拥有本地分片副本的节点上。

  6. 重新启用分配。

    当所有节点都已加入集群并恢复了其主分片后,通过将cluster.routing.allocation.enable恢复到其默认值来重新启用分配。

    resp = client.cluster.put_settings(
        body={"persistent": {"cluster.routing.allocation.enable": None}},
    )
    print(resp)
    response = client.cluster.put_settings(
      body: {
        persistent: {
          'cluster.routing.allocation.enable' => nil
        }
      }
    )
    puts response
    PUT _cluster/settings
    {
      "persistent": {
        "cluster.routing.allocation.enable": null
      }
    }

    一旦重新启用分配,集群就会开始将副本分片分配到数据节点上。此时,您可以安全地恢复索引和搜索,但如果您可以等到所有主分片和副本分片都已成功分配并且所有节点的状态都为green,您的集群恢复速度会更快。

    您可以使用_cat/health_cat/recovery API 来监控进度。

    resp = client.cat.health()
    print(resp)
    
    resp = client.cat.recovery()
    print(resp)
    response = client.cat.health
    puts response
    
    response = client.cat.recovery
    puts response
    GET _cat/health
    
    GET _cat/recovery
  7. 重启机器学习作业。(可选)

    如果您暂时停止了与机器学习作业相关的任务,请使用设置升级模式 API将它们恢复到活动状态。

    resp = client.ml.set_upgrade_mode(
        enabled="false",
    )
    print(resp)
    response = client.ml.set_upgrade_mode(
      enabled: false
    )
    puts response
    POST _ml/set_upgrade_mode?enabled=false

    如果您在停止节点之前关闭了所有机器学习作业,请从 Kibana 或使用打开作业启动数据馈送 API 打开作业并启动数据馈送。

滚动重启编辑

  1. 禁用分片分配。

    当您关闭数据节点时,分配过程会等待index.unassigned.node_left.delayed_timeout(默认情况下为一分钟)才能开始将该节点上的分片复制到集群中的其他节点,这可能涉及大量 I/O。由于该节点很快就会重启,因此这种 I/O 是不必要的。您可以通过禁用分配副本在关闭数据节点之前来避免与时间赛跑。

    resp = client.cluster.put_settings(
        body={
            "persistent": {"cluster.routing.allocation.enable": "primaries"}
        },
    )
    print(resp)
    response = client.cluster.put_settings(
      body: {
        persistent: {
          'cluster.routing.allocation.enable' => 'primaries'
        }
      }
    )
    puts response
    PUT _cluster/settings
    {
      "persistent": {
        "cluster.routing.allocation.enable": "primaries"
      }
    }
  2. 停止非必要的索引操作并执行刷新操作。(可选)

    虽然您可以在滚动重启期间继续索引,但如果您暂时停止非必要的索引操作并执行刷新操作,分片恢复速度会更快。

    resp = client.indices.flush()
    print(resp)
    response = client.indices.flush
    puts response
    POST /_flush
  3. 暂时停止与活动机器学习作业和数据馈送相关的任务。(可选)

    机器学习功能需要特定的订阅

    在关闭集群时,您有两个选项可以处理机器学习作业和数据馈送

    • 使用设置升级模式 API暂时停止与机器学习作业和数据馈送相关的任务,并阻止新的作业打开。

      resp = client.ml.set_upgrade_mode(
          enabled="true",
      )
      print(resp)
      response = client.ml.set_upgrade_mode(
        enabled: true
      )
      puts response
      POST _ml/set_upgrade_mode?enabled=true

      当您禁用升级模式时,作业将使用上次自动保存的模型状态恢复。此选项避免了在关闭期间管理活动作业的开销,并且比显式停止数据馈送和关闭作业更快。

    • 停止所有数据馈送并关闭所有作业。此选项将在关闭时保存模型状态。当您在集群重启后重新打开作业时,它们将使用完全相同的模型。但是,保存最新的模型状态比使用升级模式需要更长的时间,尤其是在您有很多作业或作业具有大型模型状态的情况下。
    • 如果您执行滚动重启,您也可以让机器学习作业继续运行。当您关闭机器学习节点时,其作业会自动移动到另一个节点并恢复模型状态。此选项可以让您的作业在关闭期间继续运行,但会增加集群的负载。
  4. 在滚动重启的情况下,关闭单个节点。

    • 如果您使用systemd运行 Elasticsearch

      sudo systemctl stop elasticsearch.service
    • 如果您使用 SysV init运行 Elasticsearch

      sudo -i service elasticsearch stop
    • 如果您以守护进程方式运行 Elasticsearch

      kill $(cat pid)
  5. 执行任何必要的更改。
  6. 重启您更改的节点。

    启动节点并确认它已加入集群,方法是检查日志文件或提交_cat/nodes请求。

    resp = client.cat.nodes()
    print(resp)
    response = client.cat.nodes
    puts response
    GET _cat/nodes
  7. 重新启用分片分配。

    对于数据节点,一旦节点加入集群,请删除cluster.routing.allocation.enable设置以启用分片分配并开始使用该节点。

    resp = client.cluster.put_settings(
        body={"persistent": {"cluster.routing.allocation.enable": None}},
    )
    print(resp)
    response = client.cluster.put_settings(
      body: {
        persistent: {
          'cluster.routing.allocation.enable' => nil
        }
      }
    )
    puts response
    PUT _cluster/settings
    {
      "persistent": {
        "cluster.routing.allocation.enable": null
      }
    }
  8. 在滚动重启的情况下重复此操作。

    当节点恢复并且集群稳定后,对需要更改的每个节点重复这些步骤。

  9. 重启机器学习作业。(可选)

    如果您暂时停止了与机器学习作业相关的任务,请使用设置升级模式 API将它们恢复到活动状态。

    resp = client.ml.set_upgrade_mode(
        enabled="false",
    )
    print(resp)
    response = client.ml.set_upgrade_mode(
      enabled: false
    )
    puts response
    POST _ml/set_upgrade_mode?enabled=false

    如果您在停止节点之前关闭了所有机器学习作业,请从 Kibana 或使用打开作业启动数据馈送 API 打开作业并启动数据馈送。