创建错误计数阈值规则
对于 Observability 无服务器项目,需要 Editor 角色或更高级别才能创建错误计数阈值规则。要了解更多信息,请参阅分配用户角色和权限。
创建错误计数阈值规则,以便在服务中的错误数量超过定义的阈值时发出警报。阈值规则可以在不同的级别设置:环境、服务、事务类型和/或事务名称。

这些步骤演示了如何使用 警报 用户界面。您也可以直接从 应用程序 中的任何页面创建错误计数阈值规则。单击 警报和规则 按钮,然后选择 创建错误计数规则 。以这种方式创建规则时,将预先填充 名称 和 标签 字段,但您仍然可以更改它们。
要创建错误计数阈值规则
- 在 Observability UI 中,转到 警报 。
- 从 警报 页面中选择 管理规则 ,然后选择 创建规则 。
- 输入规则的 名称 ,并输入任何可选 标签 以进行更精细的报告(如果不确定,请留空)。
- 从 APM 用例中选择 错误计数阈值 规则类型。
- 选择适当的 服务 、 环境 和 错误分组键 (或保留 全部 以包含所有选项)。或者,您可以选择 使用 KQL 过滤器 并输入 KQL 表达式以限制规则的范围。
- 在 高于 中输入错误阈值(默认为 25 个错误)。
- 在 在过去 中定义要评估的周期(默认为过去 5 分钟)。
- 选择如何 按以下项对警报分组 。每个唯一值都会创建一个警报。
- 定义检查规则的间隔(例如,每 1 分钟检查一次)。
- (可选)设置 操作 。
- 保存 您的规则。
您可以使用与第三方系统交互、写入日志或索引或发送用户通知的操作来扩展规则。您可以随时向规则添加操作。您可以创建不添加操作的规则,也可以为单个规则定义多个操作。
要向规则添加操作,您必须首先为该服务创建一个连接器(例如,电子邮件或外部事件管理系统),然后可以将其用于不同的规则,每个规则都有自己的操作频率。
连接器类型
连接器提供了一个中心位置来存储服务和与第三方系统集成的信息。在定义警报规则的操作时,可以使用以下连接器
- 案例
- D3 Security
- 电子邮件
- IBM Resilient
- 索引
- Jira
- Microsoft Teams
- Observability AI 助手
- Opsgenie
- PagerDuty
- 服务器日志
- ServiceNow ITOM
- ServiceNow ITSM
- ServiceNow SecOps
- Slack
- Swimlane
- Torq
- Webhook
- xMatters
一些连接器类型是付费商业功能,而另一些是免费的。有关 Elastic 订阅级别的比较,请访问 订阅页面。
有关创建连接器的更多信息,请参阅 连接器。
操作频率
操作变量
使用默认的通知消息或自定义它。您可以通过单击添加变量图标 并从可用变量列表中进行选择,从而向消息添加更多上下文。

以下变量是此规则类型所特有的。您还可以指定 所有规则通用的变量 。
context.alertDetailsUrl
- 指向警报故障排除视图的链接,以获取更多上下文和详细信息。如果未配置
server.publicBaseUrl
,则这将是一个空字符串。 context.environment
- 为其创建警报的事务类型。
context.errorGroupingKey
- 为其创建警报的错误分组键。
context.errorGroupingName
- 为其创建警报的错误分组名称。
context.interval
- 满足警报条件的时间段的长度和单位。
context.reason
- 警报原因的简明描述。
context.serviceName
- 为其创建警报的服务。
context.threshold
- 高于此值的任何触发值都会导致警报触发。
context.transactionName
- 为其创建警报的事务名称。
context.triggerValue
- 违反阈值并触发警报的值。
context.viewInAppUrl
-
指向警报源的链接。
当服务中的错误数量超过定义的阈值时,会触发错误计数阈值警报。由于某些错误比其他错误更重要,因此本指南将重点关注特定的错误组 ID。
在继续之前,请确定要为其创建错误计数阈值规则的服务名称、环境名称和错误组 ID。
本指南将基于以下条件为错误组 ID 创建警报
- 服务:
{your_service.name}
- 环境:
{your_service.environment}
- 错误分组键:
{your_error.ID}
- 在过去五分钟内,错误计数高于 25 个错误
- 按
service.name
和service.environment
对警报进行分组 - 每 1 分钟检查一次
- 通过电子邮件将警报发送给站点可靠性团队
从 应用程序 中的任何页面,选择 警报和规则 → 创建阈值规则 → 错误计数规则 。更改警报的名称(如果需要),但不要编辑标签。
根据上述条件,定义以下规则详细信息
- 服务 :
{your_service.name}
- 环境 :
{your_service.environment}
- 错误分组键 :
{your_error.ID}
- 高于:
25 个错误
- 在过去:
5 分钟
- 警报分组依据:
service.name
service.environment
- 每隔多久检查一次:
1 分钟
接下来,选择 电子邮件 连接器,然后单击 创建连接器 。填写所需的详细信息:发件人、主机、端口等,然后选择 保存 。
提供了默认消息作为警报的起点。您可以使用 Mustache 模板语法 ( {{variable}}
) 在检测到条件时将其他警报值传递给操作。可以通过单击添加变量图标 来访问可用变量的列表。
选择 保存 。警报已创建并且现在处于活动状态!