分析和比较主机
Elastic Stack Serverless
我们很乐意听取您的反馈! 告诉我们您的想法!
主机页面提供了一个由易于使用的 Lens 界面支持的,以指标驱动的基础架构视图。在主机页面上,您可以查看运行状况和性能指标,以帮助您快速
- 分析和比较主机,而无需构建新的仪表板。
- 识别哪些主机触发了最多的警报。
- 快速排查和解决问题。
- 查看历史数据以排除错误警报并确定根本原因。
- 筛选和搜索数据,以专注于您最关心的主机。
要在
- Elastic Stack 中访问主机页面,请在主菜单中查找基础设施,或使用全局搜索字段。
- Serverless,请转到您的 Elastic Observability Serverless 项目中的基础设施 → 主机。

要了解有关此页面上显示的指标的更多信息,请参阅 指标参考 文档。
主机页面提供了多种查看主机指标的方法
- 概览磁贴显示您的搜索返回的主机数量以及关键指标的平均值,包括 CPU 使用率、归一化负载和内存使用率。 还显示最大磁盘使用率。
- 主机限制控制页面上显示的最大主机数。 默认值为 50,这意味着该页面显示基于最近时间戳的前 50 个主机的数据。 您可以增加主机限制以查看更多主机的数据,但这可能会影响查询性能。
- 主机表显示每个主机的指标细分以及任何具有活动警报的主机的警报计数。 您可能需要翻页或更改每页显示的行数才能查看所有主机。
- 每个主机名都是指向主机详细信息页面的活动链接,您可以在其中探索增强的指标和其他与所选主机相关的可观察性数据。
- 表格列是可排序的,但请注意,排序行为应用于已返回的数据集。
- 页面底部的选项卡显示您的搜索返回的所有主机的指标、日志和警报的概览。
有关创建和查看警报的更多信息,请参阅警报。
主机页面提供了几种筛选页面上的数据的方法
使用 Kibana 查询语言 输入搜索查询,以显示与您的搜索条件匹配的指标。 例如,要查看在 Linux 上运行的主机的指标,请输入
host.os.type : "linux"
。 否则,您将看到所有受监控主机的指标(最多为主机限制指定的主机数)。选择其他条件以筛选视图
在操作系统列表中,选择一个或多个操作系统以包括(或排除)运行所选操作系统的指标。
在云提供商列表中,选择一个或多个云提供商以包括(或排除)在所选云提供商上运行的主机的指标。
在服务名称列表中,选择一个或多个服务名称以包括(或排除)运行所选服务的主机的指标。 服务必须通过 APM 进行检测才能进行筛选。 此筛选器对于比较不同的主机以确定问题是出在服务还是运行该服务的主机上非常有用。
提示筛选后的结果按*文档计数*排序。 文档计数是 Elastic 为与您的筛选条件匹配的主机收到的事件数量。
更改时间筛选器中的日期范围,或者单击并拖动可视化以更改日期范围。
在可视化中,单击一条线上的一个点并应用筛选器,以将页面上的其他可视化设置为相同的时间和/或主机。
要了解有关在 Kibana 中筛选数据的更多信息,请参阅 Kibana 概念。
在指标选项卡上,查看随时间变化的指标趋势,包括 CPU 使用率、归一化负载、内存使用率、磁盘使用率以及与磁盘 IOP 和吞吐量相关的其他指标。 将光标放在一条线上以查看特定时间点的指标。 在每个可视化中,您可以选择在 Lens 中打开可视化。
要查看特定主机的指标,请参阅 查看主机详细信息。
指标可视化由 Lens 提供支持,这意味着如果您需要更大的灵活性,您可以继续在 Lens 中进行分析。 将光标悬停在可视化上方,然后单击右上角的省略号图标以在 Lens 中打开可视化。

在 Lens 中,您可以检查用于创建可视化的所有字段和公式,修改可视化并保存您的更改。
有关使用 Lens 的更多信息,请参阅 有关 Lens 的 Kibana 文档。
在主机页面的日志选项卡上,查看您正在监控的系统的日志,并搜索特定的日志条目。 此视图显示当前查询返回的所有主机的日志。

要查看特定主机的日志,请参阅 查看主机详细信息。
在主机页面的警报选项卡上,查看活动警报以查明问题。 使用此视图来确定哪些主机触发了警报并确定根本原因。 此视图显示当前查询返回的所有主机的警报。
从操作菜单中,您可以选择
- 将警报添加到新的或现有的案例。
- 查看规则详细信息。
- 查看警报详细信息。

要查看特定主机的警报,请参阅 查看主机详细信息。
为什么主机页面上缺少警报?
如果您的规则触发了未出现在主机页面上的警报,请编辑规则并确保它们已正确配置为将主机名与警报相关联
- 对于指标阈值或自定义阈值规则,请在分组告警依据字段中选择
host.name
。 - 对于清单规则,请在条件下为节点类型选择主机。
要了解有关创建和管理规则的更多信息,请参阅告警。
无需离开主机页面,即可查看与基础设施中运行的每个主机相关的增强指标。在主机列表中,找到要监控的主机,然后单击切换对话框以显示详细信息图标 以显示主机详细信息覆盖层。
要展开覆盖层并查看更多详细信息,请单击右上角的以页面形式打开。
主机详细信息覆盖层包含以下选项卡
概述
进程
进程选项卡列出主机上运行的进程总数 (system.process.summary.total
),以及这些各种状态下的进程总数
- 运行 (
system.process.summary.running
) - 睡眠 (
system.process.summary.sleeping
) - 停止 (
system.process.summary.stopped
) - 空闲 (
system.process.summary.idle
) - 死亡 (
system.process.summary.dead
) - 僵尸 (
system.process.summary.zombie
) - 未知 (
system.process.summary.unknown
)
最高进程表中列出的进程基于 CPU 消耗和内存消耗最高的进程的聚合。最高进程的数量由 process.include_top_n.by_cpu
和 process.include_top_n.by_memory
控制。
命令 | 启动进程的完整命令行,包括可执行文件的绝对路径和所有参数 (system.process.cmdline )。 |
PID | 进程 ID (process.pid )。 |
用户 | 用户名 (user.name )。 |
CPU | 自上次事件以来进程消耗的 CPU 时间百分比 (system.process.cpu.total.pct )。 |
时间 | 进程开始的时间 (system.process.cpu.start_time )。 |
内存 | 进程在主内存 (RAM) 中占用的内存百分比 (system.process.memory.rss.pct )。 |
状态 | 进程的当前状态和进程总数 (system.process.state )。预期值为:running 、sleeping 、dead 、stopped 、idle 、zombie 和 unknown 。 |

通用分析器
通用分析器选项卡显示 CPU 使用情况,细化到应用程序代码级别。从这里,您可以找到资源使用的来源,并识别可以优化以降低基础设施成本的代码。“通用分析器”选项卡具有以下视图。
火焰图 | 消耗最多资源的函数的直观表示。每个矩形代表一个函数。矩形的宽度表示在该函数中花费的时间。堆叠矩形的数量表示堆栈深度,或调用以到达当前函数的函数数量。 |
前 10 个函数 | 主机上最昂贵的代码行列表。查看最常采样的函数,按 CPU 时间、年度二氧化碳排放量和年度成本估算进行分解。 |
有关通用分析器的更多信息,请参阅通用分析器文档。

日志
日志选项卡显示与您选择的主机相关的日志。默认情况下,“日志”选项卡显示以下列。
时间戳 | 来自 timestamp 字段的日志条目的时间戳。 |
消息 | 从文档中提取的消息。此字段的内容取决于日志消息的类型。如果未检测到特殊的日志消息类型,则使用 Elastic Common Schema (ECS) 基本字段 message 。 |
要在日志应用程序中查看日志以进行详细分析,请单击在日志中打开。

异常
Osquery
对于 Observability 无服务器项目,需要以下角色之一才能使用 Osquery。
- 管理员:对项目配置具有完全访问权限,包括通过 Elastic Agent 安装、管理和运行 Osquery 查询的能力。此角色支持针对受监控主机的临时(实时)查询和计划查询。管理员可以直接在 Elasticsearch 中查看和分析结果。
- 编辑:具有有限的访问权限。编辑可以运行预配置的查询,但可能对设置和计划新查询具有受限权限,特别是需要更广泛的访问权限或权限调整的查询。
- 查看者:具有数据的只读访问权限,包括查看具有更高权限的用户配置的 Osquery 结果。查看者无法自行启动或计划 Osquery 查询。
要了解有关角色的更多信息,请参阅分配用户角色和权限。
您必须有一个活动的 Elastic Agent,并分配一个包含 Osquery Manager 集成的代理策略。
Osquery 选项卡允许您构建 SQL 语句来查询主机数据。您可以创建和运行针对 Elastic Agent 的实时或已保存的查询。Osquery 结果存储在 Elasticsearch 中,以便您可以使用 Elastic Stack 来搜索、分析和可视化主机指标。要创建已保存的查询并添加计划的查询组,请参阅 Osquery。
要查看有关查询的更多信息,请单击状态选项卡。查询状态可能会导致 success
、error
(以及错误消息)或 pending
(如果 Elastic Agent 处于脱机状态)。
其他选项包括
- 在 Discover 中查看,以搜索、过滤和查看有关主机指标字段结构的信息。要了解更多信息,请参阅 Discover。
- 在 Lens 中查看,以根据主机指标字段创建可视化效果。要了解更多信息,请参阅 Lens。
- 以全屏模式查看结果。
- 添加、删除、重新排序和调整列的大小。
- 按升序或降序对字段名称进行排序。

主机页面上显示的指标也可在查看基础设施清单页面上的主机时使用。
您的图表中可能会看到虚线,原因有以下几个。
在此示例中,数据发射速率低于 Lens 图表间隔。虚线连接已知数据点,以便更容易地可视化数据趋势。

图表间隔会根据所选时间范围自动设置。要解决此问题,请更改页面顶部选择的时间范围。
想要在保持所选时间范围的同时进一步深入挖掘?将鼠标悬停在您感兴趣的图表上,然后选择选项 → 在 Lens 中打开。进入 Lens 后,您可以临时调整图表间隔。请注意,此更改不会在主机视图中保留。
实线表示图表间隔针对数据传输速率设置正确。在本例中,实线变成虚线,表示数据丢失。您可能需要调查此时间段,以确定是否存在中断或问题。

在屏幕截图中显示的示例中,数据发射速率低于 Lens 图表间隔并且存在数据丢失。
这种数据丢失乍一看可能难以发现。绿色框突出显示常规数据发射,而粉色框突出显示丢失的数据。与上述情况类似,您可能需要调查存在数据丢失的时间段,以确定是否存在中断或问题。

在主机视图中,您可能会在主机名称前看到一个问号图标 (),并附带一条工具提示,说明该主机已被 APM 检测到。
当 APM 检测到某个主机,但该主机未收集完整指标(例如,通过 系统集成),它将被列为使用 APM 收集的部分指标的主机。
这可能意味着 APM 代理未配置为使用正确的主机名。相反,主机名可能是容器名称或 Kubernetes pod 名称。
要获取正确的主机名,您需要设置一些额外的配置选项,特别是 system.kubernetes.node.name
,如 Kubernetes 数据中所述。