错误计数阈值规则

编辑

当服务中的错误数量超过定义的阈值时发出警报。错误计数规则可以在环境级别、服务级别和错误组级别设置。

过滤器和条件
编辑

过滤来自您的应用程序的错误,以便将错误计数阈值规则应用于特定服务(SERVICE)、环境(ENVIRONMENT)或错误分组键(ERROR GROUPING KEY)。或者,您可以使用 KQL 过滤器,通过切换 使用 KQL 过滤器 选项来限制警报的范围。

相似的错误会被分组在一起,以便您轻松快速地查看哪些错误正在影响您的服务,并采取措施纠正它们。每个错误组都有一个唯一的错误分组键 - 堆栈跟踪和其他属性的哈希值。

然后,您可以指定哪些条件应导致警报。这包括指定

  • 发生的错误数量(高于)。
  • 错误必须发生的时间范围(最近),单位为秒、分钟、小时或天。
分组
编辑

为自定义阈值规则设置一个或多个 分组告警依据 字段,以针对选定的字段执行复合聚合。当任何这些组与选定的规则条件匹配时,将按组触发警报。

当您选择多个分组时,组名以逗号分隔。

当您选择 如果某个组停止报告数据则发出警报 时,如果先前报告指标的组在预期的时间段内不再报告指标,则会触发该规则。

规则计划
编辑

定义评估条件的频率,单位为秒、分钟、小时或天。检查会排队,以便尽可能接近定义的容量值运行。

高级选项
编辑

您可以选择定义 告警延迟。仅当指定数量的连续运行满足规则条件时,才会发出告警。

操作
编辑

通过将规则连接到使用内置集成的操作来扩展规则。

操作类型编辑

支持的内置集成包括

某些连接器类型是付费的商业功能,而另一些是免费的。有关 Elastic 订阅级别的比较,请访问 订阅页面

操作频率编辑

选择连接器后,必须设置操作频率。您可以选择在每个检查间隔或自定义间隔中创建告警摘要。或者,您可以设置操作频率,以便选择操作的运行频率(例如,在每个检查间隔、仅当告警状态更改时或在自定义操作间隔)。

您还可以通过指定操作仅在匹配 KQL 查询时或在特定时间范围内发生警报时运行来进一步细化操作运行的条件。

  • 如果告警匹配查询:输入 KQL 查询,该查询定义必须满足的字段值对或查询条件才能发送通知。该查询仅搜索规则指定的索引中的告警文档。
  • 如果在时间范围内生成告警:设置时间范围详细信息。仅当在您定义的时间范围内生成告警时才会发送通知。
操作变量编辑

默认消息作为告警的起始点提供。如果要自定义消息,请单击消息文本框上方的图标,并从可用变量列表中选择,从而向消息添加更多上下文。

要将变量添加到告警消息,请使用 Mustache 模板语法,例如 {{variable.name}}

apm error count rule action variables

以下变量特定于此规则类型。您还可以指定 所有规则通用的变量

context.alertDetailsUrl
指向告警故障排除视图的链接,以获取更多上下文和详细信息。如果未配置 server.publicBaseUrl,则这将是一个空字符串。
context.environment
创建告警的事务类型
context.errorGroupingKey
创建告警的错误分组键
context.errorGroupingName
创建告警的错误分组名称
context.interval
满足告警条件的时间段的长度和单位
context.reason
告警原因的简明描述
context.serviceName
创建告警的服务
context.threshold
任何高于此值的触发值都将导致告警触发
context.transactionName
创建告警的事务名称
context.triggerValue
违反阈值并触发告警的值
context.viewInAppUrl
指向告警源的链接