错误计数阈值规则

编辑

当服务的错误数量超过定义的阈值时发出警报。错误计数规则可以在环境级别、服务级别和错误组级别设置。

过滤器和条件
编辑

过滤来自应用程序的错误,以便将错误计数阈值规则应用于特定服务(SERVICE)、环境(ENVIRONMENT)或错误分组键(ERROR GROUPING KEY)。或者,您可以使用 KQL 过滤器 通过切换 使用 KQL 过滤器 选项来限制警报的范围。

类似的错误会分组在一起,以便轻松快速地查看哪些错误正在影响您的服务,并采取措施对其进行纠正。每个错误组都有一个唯一的错误分组键——堆栈跟踪和其他属性的哈希值。

然后,您可以指定哪些条件应导致警报。这包括指定

  • 发生的错误数量(IS ABOVE)。
  • 错误必须发生的时间范围(FOR THE LAST),以秒、分钟、小时或天为单位。
分组
编辑

为自定义阈值规则设置一个或多个 按分组警报 字段,以对选定的字段执行复合聚合。当这些组中的任何一个与选定的规则条件匹配时,将按组触发警报。

当您选择多个分组时,组名称用逗号分隔。

当您选择 如果一个组停止报告数据,则向我发出警报 时,如果以前报告指标的组在预期时间段内不再报告指标,则会触发该规则。

规则计划
编辑

以秒、分钟、小时或天为单位定义检查条件的频率。检查会排队,以便在容量允许的情况下尽可能接近定义的值运行。

高级选项
编辑

可以选择定义 警报延迟。只有当指定的连续运行次数满足规则条件时,才会发生警报。

操作
编辑

通过将规则连接到使用内置集成的操作来扩展规则。

操作类型编辑

支持的内置集成包括

某些连接器类型是付费商业功能,而其他连接器类型是免费的。要比较 Elastic 订阅级别,请访问 订阅页面

操作频率编辑

选择连接器后,必须设置操作频率。您可以选择在每个检查间隔或自定义间隔创建警报摘要。或者,您可以设置操作频率,以便选择操作运行的频率(例如,在每个检查间隔、仅在警报状态更改时或在自定义操作间隔)。

您还可以通过指定操作仅在匹配 KQL 查询或在特定时间范围内发生警报时运行,来进一步优化操作运行的条件。

  • 如果警报匹配查询:输入定义必须满足的字段值对或查询条件的 KQL 查询,以便发送通知。该查询仅搜索规则指定索引中的警报文档。
  • 如果在时间范围内生成警报:设置时间范围详细信息。仅当在您定义的时间范围内生成警报时,才会发送通知。
操作变量编辑

默认消息作为警报的起点提供。如果您想自定义消息,可以通过点击消息文本框上方的图标并从可用变量列表中选择来向消息添加更多上下文。

要将变量添加到警报消息,请使用 Mustache 模板语法,例如 {{variable.name}}

apm error count rule action variables

以下变量特定于此规则类型。您还可以指定 所有规则通用的变量

context.alertDetailsUrl
指向警报故障排除视图的链接,以获取更多上下文和详细信息。如果未配置 server.publicBaseUrl,则此链接将为空字符串。
context.environment
为其创建警报的事务类型
context.errorGroupingKey
为其创建警报的错误分组键
context.errorGroupingName
为其创建警报的错误分组名称
context.interval
满足警报条件的时间段的长度和单位
context.reason
警报原因的简洁描述
context.serviceName
为其创建警报的服务
context.threshold
任何高于此值的触发值都将导致警报触发
context.transactionName
为其创建警报的事务名称
context.triggerValue
违反阈值并触发警报的值
context.viewInAppUrl
指向警报源的链接