分析和比较主机编辑

此功能处于测试阶段,可能会发生变化。设计和代码不如正式的 GA 功能成熟,按原样提供,不提供任何保证。测试版功能不受正式 GA 功能支持 SLA 的约束。

我们非常乐意收到您的反馈!告诉我们您的想法!

主机 页面上,您可以通过一个名为 Lens 的易于使用的界面,获得以指标为驱动的基础设施视图。在 主机 页面上,您可以查看健康状况和性能指标,以帮助您快速

  • 分析和比较主机,而无需构建新的仪表板。
  • 确定哪些主机触发了最多的警报。
  • 快速排查和解决问题。
  • 查看历史数据以排除误报并确定根本原因。
  • 过滤和搜索数据,专注于您最关心的主机。

要从 Kibana 主菜单访问此页面,请转到 可观测性 → 基础设施 → 主机

Screenshot of the Hosts page

要详细了解此页面上显示的指标,请参阅 指标参考 文档。

如果没有指标要显示,Kibana 会提示您添加指标集成。单击 添加指标集成 开始使用。如果您将来想添加更多数据,请从基础设施应用程序中的任何页面单击 添加数据

需要帮助入门?请按照 日志和指标入门 中的步骤操作。

主机 页面上,您可以通过多种方式查看主机指标

  • 概述图块显示了您的搜索返回的主机数量,以及关键指标的平均值,包括 CPU 使用率、归一化负载和内存使用率。还显示了最大磁盘使用率。
  • 主机限制控制页面上显示的主机最大数量。默认值为 50,这意味着页面显示了基于最新时间戳的前 50 个主机的數據。您可以增加主机限制以查看更多主机的數據,但这样做可能会影响查询性能。
  • 主机表显示了每个主机的指标细分,以及任何具有活动警报的主机的警报计数。您可能需要浏览列表或更改每页显示的行数才能查看所有主机。
  • 每个主机名都是指向 主机详细信息 页面的活动链接,您可以在其中探索与所选主机相关的增强指标和其他可观测性数据。您也可以选择在叠加层中打开主机详细信息。
  • 表列是可排序的,但请注意,排序行为将应用于已返回的数据集。
  • 页面底部的选项卡显示了您的搜索返回的所有主机的指标、日志和警报的概述。

有关创建和查看警报的更多信息,请参阅 警报

过滤主机视图编辑

主机 页面上,您可以通过多种机制过滤页面上的数据

  • 输入搜索查询以显示与您的搜索条件匹配的指标。例如,要查看在 Linux 上运行的主机的指标,请输入 host.os.type : "linux"。否则,您将看到所有受监控主机的指标(最多由主机限制指定的数量)。
  • 选择其他条件以过滤视图

    • 操作系统 列表中,选择一个或多个操作系统以包含(或排除)在所选操作系统上运行的主机的指标。
    • 云提供商 列表中,选择一个或多个云提供商以包含(或排除)在所选云提供商上运行的主机的指标。
    • 服务名称 列表中,选择一个或多个服务名称以包含(或排除)在所选服务上运行的主机的指标。服务必须由 APM 进行检测才能进行过滤。此过滤器对于比较不同的主机以确定问题是出在服务还是其运行的主机上很有用。

过滤后的结果按文档计数排序。文档计数是 Elastic 收到的与您的过滤条件匹配的主机的事件数量。

  • 更改时间过滤器中的日期范围,或单击并拖动可视化以更改日期范围。
  • 在可视化中,单击一条线上的一个点,并应用过滤器以将页面上的其他可视化设置为相同的时间和/或主机。

要详细了解如何在 Kibana 中过滤数据,请参阅 Kibana 概念

查看指标编辑

指标 选项卡上,查看指标随时间变化的趋势,包括 CPU 使用率、归一化负载、内存使用率、磁盘使用率以及与磁盘 IOP 和吞吐量相关的其他指标。将光标悬停在一条线上以查看特定时间点的指标。在每个可视化中,您可以选择在 Lens 中打开可视化。

要查看特定主机的指标,请参阅 查看主机详细信息

在 Lens 中打开编辑

指标可视化由 Lens 提供支持,这意味着如果您需要更多灵活性,可以在 Lens 中继续分析。将光标悬停在可视化上,然后单击右上角的省略号图标以在 Lens 中打开可视化。

Screenshot showing option to open in Lens

在 Lens 中,您可以检查用于创建可视化所需的所有字段和公式,对可视化进行修改,并保存更改。

有关使用 Lens 的更多信息,请参阅 有关 Lens 的 Kibana 文档

查看日志编辑

日志 选项卡上,查看您正在监控的系统的日志,并搜索特定的日志条目。此视图显示了当前查询返回的所有主机的日志。

Screenshot showing Logs view

此视图使用日志应用程序中指定的日志源和列设置。要添加日志源或列(例如主机名),请参阅 配置数据源

单击 在日志中打开 以跟踪您的日志文件。有关更多信息,请参阅 跟踪日志文件

要查看特定主机的日志,请参阅 查看主机详细信息

查看警报编辑

警报 选项卡上,查看活动警报以查明问题。使用此视图找出哪些主机触发了警报,并确定根本原因。此视图显示了当前查询返回的所有主机的警报。

操作 菜单中,您可以选择

  • 将警报添加到新的或现有的案例中。
  • 查看规则详细信息。
  • 查看警报详细信息。
Screenshot showing Alerts view

要查看特定主机的警报,请参阅 查看主机详细信息

查看主机详细信息编辑

无需离开 主机 页面,即可查看与基础设施中运行的每个主机相关的增强指标。在主机列表中,找到要监控的主机,然后单击 切换显示详细信息的对话框 图标 展开图标 以显示主机详细信息叠加层。

要展开叠加层并查看更多详细信息,请单击右上角的 以页面形式打开

主机详细信息叠加层包含以下选项卡

概述

概述 选项卡中,显示了有关所选主机的关键指标,例如 CPU 使用率、归一化负载、内存使用率和最大磁盘使用率。

更改时间范围以查看特定时间段内的指标。

展开每个部分以查看与所选主机相关的更多详细信息,例如元数据、活动警报、在主机上检测到的服务和指标。

将光标悬停在图表上的特定时间段上,以比较给定时间的各种指标。

单击 显示全部 以深入了解相关数据。

Host overview
元数据

元数据 选项卡中,列出了与主机相关的全部元信息

  • 主机信息
  • 云信息
  • 代理信息

所有这些信息在调查事件时都很有帮助,例如,按操作系统或体系结构进行过滤。

Host metadata
指标

指标 选项卡中,按类型组织显示主机指标,比 概述 选项卡中提供的视图更完整。

Metrics
进程

进程 选项卡中,列出了主机上运行的进程总数 (system.process.summary.total),以及以下各种状态的进程总数

  • 正在运行 (system.process.summary.running)
  • 休眠 (system.process.summary.sleeping)
  • 已停止 (system.process.summary.stopped)
  • 空闲 (system.process.summary.idle)
  • 已死 (system.process.summary.dead)
  • 僵尸 (system.process.summary.zombie)
  • 未知 (system.process.summary.unknown)

顶级进程 表中列出的进程基于对顶级 CPU 和顶级内存消耗进程的聚合。顶级进程的数量由 process.include_top_n.by_cpuprocess.include_top_n.by_memory 控制。

命令

启动进程的完整命令行,包括可执行文件的绝对路径以及所有参数 (system.process.cmdline)。

PID

进程 ID(process.pid)。

用户

用户名(user.name)。

CPU

自上次事件以来进程占用的 CPU 时间百分比(system.process.cpu.total.pct)。

时间

进程启动时间(system.process.cpu.start_time)。

内存

进程在主内存(RAM)中占用的内存百分比(system.process.memory.rss.pct)。

状态

进程的当前状态和进程总数(system.process.state)。 预期值包括:runningsleepingdeadstoppedidlezombieunknown

Host processes
通用分析

通用分析 选项卡中,您可以查看 CPU 使用情况,直至应用程序代码级别。 在这里,您可以找到资源使用情况的来源,并识别可以优化以降低基础设施成本的代码。 通用分析选项卡包含以下视图。

火焰图

消耗最多资源的函数的直观表示。 每个矩形代表一个函数。 矩形的宽度代表在函数中花费的时间。 堆叠矩形的数量代表堆栈深度,即调用函数以到达当前函数的函数数量。

前 10 个函数

主机上最昂贵的代码行的列表。 查看最常采样的函数,按 CPU 时间、年度二氧化碳排放量和年度成本估算进行细分。

有关通用分析的更多信息,请参阅 通用分析 文档。

Host Universal Profiling
日志

日志 选项卡中,显示与您选择的主机相关的日志。 默认情况下,日志选项卡显示以下列。

时间戳

来自 timestamp 字段的日志条目的时间戳。

消息

从文档中提取的消息。 此字段的内容取决于日志消息的类型。 如果未检测到特殊的日志消息类型,则使用 Elastic Common Schema (ECS) 基本字段 message

您可以通过添加您想要按其过滤的任意字段的列来自定义日志视图。 有关更多信息,请参阅 自定义流。 要在日志应用程序中查看日志以进行详细分析,请单击 在日志中打开

Host logs
异常

异常 选项卡中,显示特定主机的每个单指标异常检测作业的列表。 默认情况下,异常作业按时间排序,最近的作业排在最前面。

除了每个异常作业的名称外,还列出了检测到的严重程度分数等于或大于 50 的异常。 这些分数代表在选定时间段内“警告”或更高的严重程度。 摘要 值代表异常记录结果中主机指标的实际值与预期(“典型”)值之间的增量。

要深入分析指标异常,请选择 操作 → 在异常资源管理器中打开 以查看 机器学习中的异常资源管理器。 您也可以选择 操作 → 在清单中显示 以查看主机清单页面,按特定指标进行过滤。

Anomalies
Osquery

您必须拥有一个活动的 Elastic Agent,并为其分配一个包含 Osquery Manager 集成的代理策略,并且作为用户拥有 Osquery Kibana 权限

Osquery 选项卡中,您可以构建 SQL 语句来查询主机数据。 您可以针对 Elastic Agent 创建和运行实时或保存的查询。 Osquery 结果存储在 Elasticsearch 中,以便您可以使用 Elastic Stack 搜索、分析和可视化主机指标。 要创建保存的查询并添加计划的查询组,请参阅 Osquery

要查看有关查询的更多信息,请单击 状态 选项卡。 查询状态可能导致 successerror(以及错误消息)或 pending(如果 Elastic Agent 处于脱机状态)。

其他选项包括

  • 在发现中查看,以搜索、过滤和查看有关主机指标字段结构的信息。 要了解更多信息,请参阅 发现
  • 在 Lens 中查看,以根据主机指标字段创建可视化效果。 要了解更多信息,请参阅 Lens
  • 以全屏模式查看结果。
  • 添加、删除、重新排序和调整列大小。
  • 按升序或降序对字段名称进行排序。
Osquery

主机 页面上显示的指标在查看 清单 页面上的主机时也可用。

为什么我在图表中看到虚线?编辑

您可能在图表中看到虚线的原因有很多。

图表间隔太短编辑

在此示例中,数据发射率低于 Lens 图表间隔。 虚线连接已知数据点,以便更轻松地可视化数据趋势。

Screenshot showing dashed chart

图表间隔会根据选定的时间范围自动设置。 要解决此问题,请更改页面顶部的选定时间范围。

想要在保持选定时间范围的同时深入挖掘? 将鼠标悬停在您感兴趣的图表上,然后选择 选项在 Lens 中打开。 在 Lens 中,您可以暂时调整图表间隔。 请注意,此更改不会在 主机 视图中保留。

数据丢失编辑

实线表示图表间隔已适当地设置为数据传输速率。 在此示例中,实线变为虚线,表示数据丢失。 您可能需要调查此时间段以确定是否存在中断或问题。

Screenshot showing missing data
图表间隔太短,并且数据丢失编辑

在下面的屏幕截图中,数据发射率低于 Lens 图表间隔 并且 数据丢失。

此数据丢失可能乍一看很难发现。 绿色框概述了常规数据发射,而数据丢失则用粉色概述。 与上述情况类似,您可能需要调查数据丢失的时间段以确定是否存在中断或问题。

Screenshot showing dashed lines and missing data