主机指标

编辑

了解基础设施应用中显示的关键主机指标

主机指标
编辑
指标 描述

主机

符合搜索条件的主机数量。

字段计算: count(system.cpu.cores)

CPU 使用率指标
编辑
指标 描述

CPU 使用率 (%)

CPU 时间的平均百分比,用于除空闲和 IOWait 状态之外的其他状态,并按 CPU 核心数归一化。包括用户空间和内核空间的时间。100% 表示主机的所有 CPU 都处于忙碌状态。

字段计算average(system.cpu.total.norm.pct)

有关旧指标计算,请参阅旧指标

CPU 使用率 - iowait (%)

CPU 时间在等待(磁盘)中所花费的百分比。

字段计算: average(system.cpu.iowait.pct) / max(system.cpu.cores)

CPU 使用率 - irq (%)

CPU 时间在处理硬件中断中所花费的百分比。

字段计算: average(system.cpu.irq.pct) / max(system.cpu.cores)

CPU 使用率 - nice (%)

CPU 时间在低优先级进程中所花费的百分比。

字段计算: average(system.cpu.nice.pct) / max(system.cpu.cores)

CPU 使用率 - softirq (%)

CPU 时间在处理软件中断中所花费的百分比。

字段计算: average(system.cpu.softirq.pct) / max(system.cpu.cores)

CPU 使用率 - steal (%)

虚拟 CPU 在等待管理程序服务另一个处理器时所花费的非自愿等待时间百分比。仅在 Unix 上可用。

字段计算: average(system.cpu.steal.pct) / max(system.cpu.cores)

CPU 使用率 - system (%)

CPU 时间在内核空间中所花费的百分比。

字段计算: average(system.cpu.system.pct) / max(system.cpu.cores)

CPU 使用率 - user (%)

CPU 时间在用户空间中所花费的百分比。在多核系统上,百分比可能大于 100%。例如,如果 3 个核心的使用率为 60%,则 system.cpu.user.pct 将为 180%。

字段计算: average(system.cpu.user.pct) / max(system.cpu.cores)

负载 (1m)

1 分钟平均负载。

平均负载表示可运行线程的数量(要么忙于在 CPU 上运行,要么等待运行,要么等待阻塞的 IO 操作完成)。

字段计算: average(system.load.1)

负载 (5m)

5 分钟平均负载。

平均负载表示可运行线程的数量(要么忙于在 CPU 上运行,要么等待运行,要么等待阻塞的 IO 操作完成)。

字段计算: average(system.load.5)

负载 (15m)

15 分钟平均负载。

平均负载表示可运行线程的数量(要么忙于在 CPU 上运行,要么等待运行,要么等待阻塞的 IO 操作完成)。

字段计算: average(system.load.15)

归一化负载

按 CPU 核心数归一化的 1 分钟平均负载。

平均负载表示可运行线程的数量(要么忙于在 CPU 上运行,要么等待运行,要么等待阻塞的 IO 操作完成)。

100% 表示 1 分钟平均负载等于主机的 CPU 核心数。

以一个 32 个 CPU 核心的主机为例,如果 1 分钟平均负载为 32,则此处报告的值为 100%。如果 1 分钟平均负载为 48,则此处报告的值为 150%。

字段计算: average(system.load.1) / max(system.load.cores)

内存指标
编辑
指标 描述

内存缓存

内存(页面)缓存。

字段计算: average(system.memory.used.bytes ) - average(system.memory.actual.used.bytes)

可用内存

总可用内存。

字段计算: max(system.memory.total) - average(system.memory.actual.used.bytes)

可用内存(不包括缓存)

不包括页面缓存的总可用内存。

字段计算: system.memory.free

内存总量

总内存容量。

字段计算: avg(system.memory.total)

内存使用率 (%)

不包括页面缓存的主内存使用率百分比。

这包括所有进程的驻留内存以及内核结构和代码使用的内存(页面缓存除外)。

高水平表示主机内存饱和的情况。例如,100% 表示主内存已完全填充无法回收的内存,除非通过换出。

字段计算: average(system.memory.actual.used.pct)

已用内存

不包括页面缓存的主内存使用量。

字段计算: average(system.memory.actual.used.bytes)

日志指标
编辑
指标 描述

日志速率

文档计数的累积和的导数,缩放到 1 秒速率。此指标依赖于与日志相同的索引。

字段计算: cumulative_sum(doc_count)

网络指标
编辑
指标 描述

网络入站 (RX)

主机公共接口上每秒接收的字节数。

字段计算: sum(host.network.ingress.bytes) * 8 / 1000

有关旧指标计算,请参阅旧指标

网络出站 (TX)

主机公共接口上每秒发送的字节数。

字段计算: sum(host.network.egress.bytes) * 8 / 1000

有关旧指标计算,请参阅旧指标

磁盘指标
编辑
指标 描述

磁盘延迟

用于服务磁盘请求的时间。

字段计算: average(system.diskio.read.time + system.diskio.write.time) / (system.diskio.read.count + system.diskio.write.count)

磁盘读取 IOPS

每秒从设备读取操作的平均计数。

字段计算: counter_rate(max(system.diskio.read.count), kql='system.diskio.read.count: *')

磁盘读取吞吐量

每秒从设备读取的平均字节数。

字段计算: counter_rate(max(system.diskio.read.bytes), kql='system.diskio.read.bytes: *')

磁盘使用率 - 可用 (%)

可用磁盘空间百分比。

字段计算: 1-average(system.filesystem.used.pct)

磁盘使用率 - 最大 (%)

已用磁盘空间百分比。高百分比表示磁盘上的分区空间不足。

字段计算: max(system.filesystem.used.pct)

磁盘写入 IOPS

每秒从设备写入操作的平均计数。

字段计算: counter_rate(max(system.diskio.write.count), kql='system.diskio.write.count: *')

磁盘写入吞吐量

每秒从设备写入的平均字节数。

字段计算: counter_rate(max(system.diskio.write.bytes), kql='system.diskio.write.bytes: *')

旧指标
编辑

随着时间的推移,我们可能会更改用于计算特定指标的公式。为了避免影响您现有的规则,我们不会更改实际的指标定义,而是创建一个新指标并将旧指标称为“旧”。

UI 和您创建的任何新规则都将使用新的指标定义。但是,任何使用旧定义的警报都将指标称为“旧”。

指标 描述

CPU 使用率(旧)

CPU 时间的百分比,用于除空闲和 IOWait 状态之外的其他状态,并按 CPU 核心数归一化。这包括在用户空间和内核空间中花费的时间。100% 表示主机的所有 CPU 都处于忙碌状态。

字段计算: (average(system.cpu.user.pct) + average(system.cpu.system.pct)) / max(system.cpu.cores)

网络入站 (RX)(旧)

主机公共接口上每秒接收的字节数。

字段计算: average(host.network.ingress.bytes) * 8 / (max(metricset.period, kql='host.network.ingress.bytes: *') / 1000)

网络出站 (TX)(旧)

主机公共接口上每秒发送的字节数。

字段计算: average(host.network.egress.bytes) * 8 / (max(metricset.period, kql='host.network.egress.bytes: *') / 1000)