Elastic Agent 健康状态

编辑

Elastic Agent 监控文档 描述了 Fleet UI 提供的功能,您可以通过这些功能查看 Elastic Agent 状态和活动、访问指标和诊断信息、启用警报等。

有关 Fleet 如何监控 Elastic Agent 状态(包括连接性、检查频率等)的详细信息,请参阅以下内容

Elastic Agent 如何连接到 Fleet 以报告其可用性和健康状况,并接收策略更新?
编辑

注册后,Elastic Agent 会定期使用 HTTP 长轮询初始化与 Fleet Server 的检查(Fleet Server 部署在本地或作为 Elasticsearch 的一部分部署在 Elastic Cloud 中)。

HTTP 长轮询请求保持打开状态,直到出现 Elastic Agent 需要使用的配置更改、发送到 Agent 的操作或 5 分钟超时。5 分钟后,Agent 将再次发送另一个检查以重新开始此过程。

检查频率可以通过配置更改为新值,但前提是它可能会影响可以连接到 Fleet 的最大 Agent 数量。我们对解决方案的定期规模测试不会修改此参数。

Diagram of connectivity between agents
我们使用 Stack Monitoring 来监控集群的状态。Elastic Agent 的监控以及 Fleet 中显示的状态是否也使用 Stack Monitoring?
编辑

否。Elastic Agent 及其输入的健康监控(如 Fleet 中报告的那样)完全独立于 Stack Monitoring 提供的功能。

Elastic Agent 由许多组件组成。Elastic Agent 如何确保这些组件/进程处于运行状态并保持健康?
编辑

Elastic Agent 本质上是一个主管,(至少)会部署一个 Filebeat 实例用于日志收集,以及一个 Metricbeat 实例用于从系统和该系统上运行的应用程序收集指标。作为主管,它还确保这些生成的进程正在运行并保持健康。Elastic Agent 使用 gRPC 每 30 秒与底层进程通信一次,确保其健康状况。如果未收到响应,则 Agent 将转换为 不健康 状态,并将结果和详细信息报告给 Fleet。

如果 Elastic Agent 停止运行,Fleet 会生成警报吗?
编辑

否。警报必须在 Kibana 中针对显示每个特定状态下 Agent 总数的索引创建。有关配置警报的步骤,请参阅 Elastic Agent 监控文档中的 根据 Fleet 和 Elastic Agent 状态启用警报和 ML 作业。目前计划在未来版本中针对单个 Agent 的状态更改生成警报。

Elastic Agent 需要多长时间才能报告状态更改?
编辑

某些 Elastic Agent 状态会立即报告,例如 Agent 变成 不健康 状态时。其他一些状态是在满足特定条件后推导出来的。有关监控 Agent 状态的详细信息,请参阅 Elastic Agent 监控文档中的 查看 Agent 状态概述

脱机 状态到 非活动 状态的转换可以通过用户配置,并且可以通过 设置非活动超时参数 对转换进行微调。