分析和比较主机

编辑

主机页面提供了一个由易于使用的界面 Lens 支持的、以指标驱动的基础设施视图。在主机页面上,您可以查看运行状况和性能指标,以帮助您快速地:

  • 分析和比较主机,而无需构建新的仪表板。
  • 确定哪些主机触发的警报最多。
  • 快速排除故障并解决问题。
  • 查看历史数据以排除错误警报并确定根本原因。
  • 过滤和搜索数据,以专注于您最关心的主机。

要打开主机,请在主菜单中查找基础设施,或使用全局搜索字段

Screenshot of the Hosts page

要了解有关此页面上显示的指标的更多信息,请参阅指标参考文档。

如果没有要显示的指标,Kibana 会提示您添加指标集成。单击添加指标集成以开始。如果您将来想添加更多数据,请从基础设施应用程序中的任何页面单击添加数据

需要帮助入门吗?请按照日志和指标入门中的步骤操作。

主机页面提供了几种查看主机指标的方法:

  • 概览磁贴显示搜索返回的主机数以及关键指标的平均值,包括 CPU 使用率、标准化负载和内存使用率。还会显示最大磁盘使用率。
  • 主机限制控制页面上显示的最大主机数。默认值为 50,这意味着页面显示基于最新时间戳的前 50 个主机的数据。您可以增加主机限制以查看更多主机的数据,但这可能会影响查询性能。
  • 主机表显示每个主机的指标细目,以及任何具有活动警报的主机的警报计数。您可能需要翻页浏览列表或更改每页显示的行数才能查看所有主机。
  • 每个主机名称都是指向主机详细信息页面的活动链接,您可以在其中探索增强的指标和与所选主机相关的其他可观察性数据。您可以选择在叠加层中打开主机详细信息。
  • 表格列是可排序的,但请注意,排序行为应用于已返回的数据集。
  • 页面底部的选项卡显示搜索返回的所有主机的指标、日志和警报的概览。

有关创建和查看警报的更多信息,请参阅警报

筛选主机视图
编辑

主机页面提供了几种用于筛选页面上的数据的机制:

  • 输入搜索查询以显示与您的搜索条件匹配的指标。例如,要查看在 Linux 上运行的主机的指标,请输入host.os.type : "linux"。否则,您将看到所有受监控主机的指标(最多为主机限制指定的主机数)。
  • 选择其他条件以筛选视图:

    • 操作系统列表中,选择一个或多个操作系统,以包含(或排除)运行所选操作系统的指标。
    • 云提供商列表中,选择一个或多个云提供商,以包含(或排除)在所选云提供商上运行的主机的指标。
    • 服务名称列表中,选择一个或多个服务名称,以包含(或排除)运行所选服务的主机的指标。服务必须由 APM 进行检测才能进行筛选。此筛选器可用于比较不同的主机,以确定问题是出在服务还是其运行的主机上。

筛选后的结果按文档计数排序。文档计数是 Elastic 为与您的筛选条件匹配的主机接收到的事件数。

  • 更改时间筛选器中的日期范围,或单击并在可视化上拖动以更改日期范围。
  • 在可视化中,单击线条上的一个点并应用筛选器,将页面上的其他可视化设置为相同的时间和/或主机。

要了解有关在 Kibana 中筛选数据的更多信息,请参阅Kibana 概念

查看指标
编辑

指标选项卡上,查看随时间变化的指标趋势,包括 CPU 使用率、标准化负载、内存使用率、磁盘使用率以及与磁盘 IOP 和吞吐量相关的其他指标。将光标悬停在一条线上以查看特定时间点的指标。在每个可视化中,您可以选择在 Lens 中打开可视化。

要查看特定主机的指标,请参阅查看主机详细信息

在 Lens 中打开
编辑

指标可视化由 Lens 提供支持,这意味着如果需要更大的灵活性,您可以继续在 Lens 中进行分析。将光标悬停在可视化上,然后单击右上角的省略号图标以在 Lens 中打开可视化。

Screenshot showing option to open in Lens

在 Lens 中,您可以检查用于创建可视化的所有字段和公式、修改可视化并保存更改。

有关使用 Lens 的更多信息,请参阅有关 Lens 的 Kibana 文档

查看日志
编辑

日志选项卡上,查看您正在监控的系统的日志并搜索特定的日志条目。此视图显示当前查询返回的所有主机的日志。

Screenshot showing Logs view

此视图使用日志应用程序中指定的日志源和列设置。要添加日志源或列(例如主机名),请参阅配置数据源

单击在日志中打开以跟踪您的日志文件。有关更多信息,请参阅日志流

要查看特定主机的日志,请参阅查看主机详细信息

查看警报
编辑

警报选项卡上,查看活动警报以查明问题。使用此视图来找出哪些主机触发了警报并确定根本原因。此视图显示当前查询返回的所有主机的警报。

操作菜单中,您可以选择:

  • 将警报添加到新的或现有的案例中。
  • 查看规则详细信息。
  • 查看警报详细信息。
Screenshot showing Alerts view

要查看特定主机的警报,请参阅查看主机详细信息

查看主机详细信息
编辑

无需离开主机页面,您就可以查看与基础设施中运行的每个主机相关的增强指标。在主机列表中,找到您要监控的主机,然后单击使用详细信息切换对话框图标展开图标以显示主机详细信息叠加层。

要展开叠加层并查看更多详细信息,请单击右上角的作为页面打开

主机详细信息叠加层包含以下选项卡:

概览

概览选项卡显示有关所选主机的关键指标,例如 CPU 使用率、标准化负载、内存使用率和最大磁盘使用率。

更改时间范围以查看特定时间段内的指标。

展开每个部分以查看与所选主机相关的更多详细信息,例如元数据、活动警报、在主机上检测到的服务和指标。

将鼠标悬停在图表上的特定时间段上,以比较该给定时间的各种指标。

单击全部显示以深入查看相关数据。

Host overview
元数据

元数据选项卡列出与主机相关的所有元信息:

  • 主机信息
  • 云信息
  • 代理信息

所有这些信息在调查事件时都很有帮助,例如,按操作系统或架构进行筛选。

Host metadata
指标

指标选项卡按类型显示主机指标,并且比概览选项卡中提供的视图更完整。

Metrics
进程

进程”选项卡列出了主机上运行的进程总数(system.process.summary.total),以及这些进程处于各种状态的总数。

  • 正在运行(system.process.summary.running
  • 睡眠中(system.process.summary.sleeping
  • 已停止(system.process.summary.stopped
  • 空闲(system.process.summary.idle
  • 已死亡(system.process.summary.dead
  • 僵尸(system.process.summary.zombie
  • 未知(system.process.summary.unknown

热门进程”表中列出的进程基于占用 CPU 和内存最多的进程的聚合结果。热门进程的数量由 process.include_top_n.by_cpuprocess.include_top_n.by_memory 控制。

命令

启动进程的完整命令行,包括可执行文件的绝对路径和所有参数(system.process.cmdline)。

PID

进程 ID(process.pid)。

用户

用户名(user.name)。

CPU

自上次事件以来,进程使用的 CPU 时间百分比(system.process.cpu.total.pct)。

时间

进程启动的时间(system.process.cpu.start_time)。

内存

进程在主内存(RAM)中占用的内存百分比(system.process.memory.rss.pct)。

状态

进程的当前状态和进程总数(system.process.state)。预期值包括:runningsleepingdeadstoppedidlezombieunknown

Host processes
通用分析

通用分析”选项卡显示 CPU 使用率,精确到应用程序代码级别。您可以在此处查找资源使用情况的来源,并识别可优化以降低基础设施成本的代码。“通用分析”选项卡具有以下视图。

火焰图

以可视化方式呈现消耗最多资源的函数。每个矩形表示一个函数。矩形的宽度表示在函数中花费的时间。堆叠的矩形数量表示堆栈深度,即为到达当前函数而调用的函数数量。

前 10 个函数

主机上最昂贵的代码行列表。查看按 CPU 时间、年度化二氧化碳排放量和年度化成本估算细分的采样频率最高的函数。

有关通用分析的更多信息,请参阅通用分析文档。

Host Universal Profiling
日志

日志”选项卡显示与您选择的主机相关的日志。默认情况下,“日志”选项卡显示以下列。

时间戳

日志条目的时间戳,来自 timestamp 字段。

消息

从文档中提取的消息。此字段的内容取决于日志消息的类型。如果未检测到特殊的日志消息类型,则使用Elastic Common Schema (ECS)基本字段 message

您可以通过为要筛选的任意字段添加列来自定义日志视图。有关更多信息,请参阅自定义流。要查看日志应用程序中用于详细分析的日志,请单击在日志中打开

Host logs
异常

异常”选项卡显示特定主机的每个单一指标异常检测作业的列表。默认情况下,异常作业按时间排序,首先显示最新的作业。

除了每个异常作业的名称之外,还列出了严重性评分等于或高于 50 的检测到的异常。这些评分表示在选定时间段内的“警告”或更高的严重性。摘要值表示异常记录结果中主机指标的实际值和预期(“典型”)值之间的增加。

要深入分析指标异常,请选择操作 → 在异常浏览器中打开,以查看机器学习中的异常浏览器。您还可以选择操作 → 在清单中显示,以查看按特定指标筛选的主机清单页面。

Anomalies
Osquery

您必须拥有一个活动的Elastic Agent,并分配一个包含Osquery Manager集成的代理策略,并且作为用户拥有 Osquery Kibana 权限

Osquery”选项卡允许您构建 SQL 语句来查询主机数据。您可以针对 Elastic Agent 创建和运行实时或已保存的查询。Osquery 结果存储在 Elasticsearch 中,以便您可以使用 Elastic Stack 来搜索、分析和可视化主机指标。要创建已保存的查询和添加计划的查询组,请参阅Osquery

要查看有关查询的更多信息,请单击“状态”选项卡。查询状态可能为successerror(以及错误消息)或pending(如果 Elastic Agent 处于脱机状态)。

其他选项包括

  • 在 Discover 中查看,以搜索、筛选和查看有关主机指标字段结构的信息。要了解更多信息,请参阅Discover
  • 在 Lens 中查看,以根据主机指标字段创建可视化效果。要了解更多信息,请参阅Lens
  • 以全屏模式查看结果。
  • 添加、删除、重新排序和调整列大小。
  • 按升序或降序对字段名称进行排序。
Osquery

在“主机”页面上显示的指标在“基础设施清单”页面上查看主机时也可用。

为什么我在图表中看到虚线?
编辑

您在图表中看到虚线有几个原因。

图表间隔太短编辑

在此示例中,数据发射率低于 Lens 图表间隔。虚线连接已知数据点,以便更容易地可视化数据趋势。

Screenshot showing dashed chart

图表间隔根据选定的持续时间自动设置。要解决此问题,请更改页面顶部的选定时间范围。

想要在保持选定持续时间的同时深入挖掘?将鼠标悬停在您感兴趣的图表上,然后选择选项在 Lens 中打开。进入 Lens 后,您可以临时调整图表间隔。请注意,此更改不会在“主机”视图中持久保存。

数据缺失编辑

实线表示图表间隔已针对数据传输速率进行了适当的设置。在此示例中,实线变为虚线,表示数据缺失。您可能需要调查此时间段,以确定是否存在中断或问题。

Screenshot showing missing data
图表间隔太短且数据缺失编辑

在下面的屏幕截图中,数据发射率低于 Lens 图表间隔,并且存在缺失数据。

这种缺失的数据可能一开始很难发现。绿色框概述了常规数据发射,而缺失的数据以粉色框概述。与上述情况类似,您可能需要调查缺少数据的时间段,以确定是否存在中断或问题。

Screenshot showing dashed lines and missing data
故障排除
编辑
此主机已被 APM 检测到是什么意思?
编辑

在“主机”视图中,您可能会看到主机名称之前有一个问号图标(问号图标),并显示一个工具提示,指出该主机已被 APM 检测到。当主机被 APM 检测到,但未收集完整指标时(例如,通过系统集成),它将被列为通过 APM 收集部分指标的主机。

我不认识主机名称,并且在其旁边看到一个问号图标
编辑

这可能意味着 APM 代理未配置为使用正确的主机名称。相反,主机名称可能是容器名称或 Kubernetes pod 名称。

要获取正确的主机名称,您需要设置一些额外的配置选项,特别是 system.kubernetes.node.name,如Kubernetes 数据中所述。