创建库存阈值规则编辑

基于基础设施应用程序中 库存 页面上列出的资源,您可以创建阈值规则,以便在指标达到或超过特定资源或基础设施中一组资源的值时通知您。

此外,每个规则都可以使用多个条件来定义,这些条件将指标和阈值结合起来,以创建精确的通知并减少误报。

  1. 要访问此页面,请转到 可观测性基础设施
  2. 库存 页面或 指标资源管理器 页面上,单击 警报和规则基础设施
  3. 选择 创建库存规则

当您选择 创建库存警报 时,您在 库存 页面上配置的参数将自动填充到规则中。您可以先使用库存来查看您希望收到通知的基础设施中的哪些节点,然后只需点击几下即可快速创建规则。

库存条件编辑

每个规则的条件可以应用于与您选择的库存类型相关的特定指标。您可以选择聚合类型、指标,并通过包含警告阈值,您可以根据严重性分数在多个阈值上收到警报。在创建规则时,如果特定指标没有返回数据或规则无法查询 Elasticsearch,您仍然可以收到通知。您还可以设置高级选项,例如必须满足规则条件的连续运行次数,才能触发警报。

在此示例中,Kubernetes Pod 是所选的库存类型。条件表明,对于 ingress-nginx 命名空间中的任何 Pod,如果内存使用率达到或超过 95%,您将收到严重警报;如果内存使用率达到或超过 90%,您将收到警告警报。图表显示了将规则应用于过去 20 分钟数据的結果。请注意,图表时间范围是 FOR THE LAST 字段中指定的回溯窗口值的 20 倍。

Inventory rule
操作类型编辑

通过将规则连接到使用以下支持的内置集成的操作来扩展您的规则。

某些连接器类型是付费商业功能,而其他连接器类型是免费的。要比较 Elastic 订阅级别,请访问 订阅页面

选择连接器后,您必须设置操作频率。您可以选择在每个检查间隔或自定义间隔上创建警报摘要。例如,每小时发送电子邮件通知,总结新的、正在进行的和已恢复的警报。

Action types

或者,您可以设置操作频率,以便选择操作运行的频率(例如,在每个检查间隔、仅在警报状态更改时或在自定义操作间隔)。在这种情况下,您可以通过选择特定的阈值条件来精确定义警报触发的时机:AlertWarningRecovered(曾经高于阈值的值现在已降至阈值以下)。

Configure when an alert is triggered

您还可以通过指定操作仅在与 KQL 查询匹配时或在特定时间范围内发生警报时运行来进一步细化操作运行的条件。

  • 如果警报与查询匹配:输入一个 KQL 查询,该查询定义必须满足的字段-值对或查询条件,以便发送通知。该查询仅搜索规则中为其指定的索引中的警报文档。
  • 如果警报在时间范围内生成:设置时间范围详细信息。仅在您定义的时间范围内生成警报时才会发送通知。
Configure a conditional alert
操作变量编辑

使用默认通知消息或自定义它。您可以通过单击消息文本框上方的图标并从可用变量列表中选择来向消息添加更多上下文。

Default notification message for infrastructure threshold rules with open "Add variable" popup listing available action variables

以下变量特定于此规则类型。您还可以指定 所有规则通用的变量

context.alertDetailsUrl
指向警报故障排除视图的链接,以获取更多上下文和详细信息。如果未配置 server.publicBaseUrl,则此链接将为空字符串。
context.alertState
警报的当前状态。
context.cloud
如果源中可用,则由 ECS 定义的云对象。
context.container
如果源中可用,则由 ECS 定义的容器对象。
context.group
报告数据的组的名称。
context.host
如果源中可用,则由 ECS 定义的主机对象。
context.labels
与触发此警报的实体关联的标签列表。
context.metric
指定条件中的指标名称。用法:(ctx.metric.condition0ctx.metric.condition1 等)。
context.orchestrator
如果源中可用,则由 ECS 定义的编排器对象。
context.originalAlertState
警报恢复之前的状态。此变量仅在恢复上下文中可用。
context.originalAlertStateWasALERT
警报恢复之前的状态的布尔值。这可用于模板条件。此变量仅在恢复上下文中可用。
context.originalAlertStateWasWARNING
警报恢复之前的状态的布尔值。这可用于模板条件。此变量仅在恢复上下文中可用。
context.reason
警报原因的简要描述。
context.tags
与触发此警报的实体关联的标签列表。
context.threshold
指定条件中指标的阈值。用法:(ctx.threshold.condition0ctx.threshold.condition1 等)。
context.timestamp
检测到警报的时间戳。
context.value
指定条件中指标的值。用法:(ctx.value.condition0ctx.value.condition1 等)。
context.viewInAppUrl
指向警报源的链接。
设置编辑

对于基础设施阈值规则,无法在配置中设置显式索引模式。相反,索引模式是从基础设施应用程序的 设置 页面上的 指标索引 推断出来的。

在每次执行规则检查时,都会检查 指标索引 设置,但在创建规则时不会存储该设置。

设置 下设置的 时间戳 字段决定在查询中使用哪个字段作为时间戳。