Elastic Agent 健康状况编辑

Elastic Agent 监控文档 描述了通过 Fleet UI 可用的功能,您可以通过这些功能查看 Elastic Agent 状态和活动,访问指标和诊断信息,启用警报等等。

有关 Fleet 如何监控 Elastic Agent 状态(包括连接性、检查频率等)的详细信息,请参阅以下内容

Elastic Agent 如何连接到 Fleet 以报告其可用性和健康状况,并接收策略更新?编辑

注册后,Elastic Agent 会定期使用 HTTP 长轮询向 Fleet Server 发起检查(Fleet Server 部署在本地或作为 Elastic Cloud 中的 Elasticsearch 的一部分部署)。

HTTP 长轮询请求保持打开状态,直到出现 Elastic Agent 需要使用的配置更改、发送到代理的操作或 5 分钟超时。5 分钟后,代理将再次发送另一个检查以重新开始该过程。

可以将检查频率配置为一个新值,但条件是它可能会影响可以连接到 Fleet 的最大代理数量。我们对解决方案的常规规模测试不会修改此参数。

Diagram of connectivity between agents
我们使用堆栈监控来监控集群的状态。Fleet 中显示的 Elastic Agent 监控和状态是否也使用堆栈监控?编辑

不。Elastic Agent 及其输入的健康状况监控(如 Fleet 中所报告)完全独立于堆栈监控提供的监控。

Elastic Agent 由许多组件组成。Elastic Agent 如何确保这些组件/进程正常运行且处于健康状态?编辑

Elastic Agent 本质上是一个主管,它(至少)会部署一个 Filebeat 实例用于日志收集,以及一个 Metricbeat 实例用于从系统和运行在该系统上的应用程序收集指标。作为主管,它还确保这些生成的进程正在运行且处于健康状态。Elastic Agent 使用 gRPC 每 30 秒与底层进程通信一次,以确保其健康状况。如果没有响应,代理将变为 Unhealthy 状态,并将结果和详细信息报告给 Fleet。

如果 Elastic Agent 出现故障,Fleet 会生成警报吗?编辑

不。警报需要在 Kibana 中针对显示每个特定状态下的代理总数的索引创建。有关配置警报的步骤,请参阅 Elastic Agent 监控文档中的 根据 Fleet 和 Elastic Agent 状态设置警报和 ML 作业。目前计划在未来版本中生成有关单个代理状态更改的警报。

Elastic Agent 需要多长时间才能报告状态更改?编辑

某些 Elastic Agent 状态会立即报告,例如代理变为 Unhealthy 状态时。其他一些状态是在满足特定条件后推断出来的。有关监控代理状态的详细信息,请参阅 Elastic Agent 监控文档中的 查看代理状态概述

Offline 状态到 Inactive 状态的转换由用户配置,可以通过 设置不活动超时参数 对该转换进行微调。