创建延迟阈值规则
对于可观测性无服务器项目,需要 Editor 角色或更高的角色才能创建延迟阈值规则。要了解更多信息,请参阅 分配用户角色和权限。
您可以创建一个延迟阈值规则,以便在服务中特定事务类型的延迟超过定义的阈值时发出警报。可以在不同级别设置阈值规则:环境、服务、事务类型和/或事务名称。 添加操作以通过服务或第三方集成(例如邮件、Slack、Jira)发出警报。

这些步骤说明了如何使用 Alerts UI。您还可以直接从 Applications 中的任何页面创建延迟阈值规则。 单击 Alerts and rules 按钮,然后选择 Create threshold rule,然后选择 Latency。 以这种方式创建规则时,Name 和 Tags 字段将被预先填充,但您仍然可以更改这些字段。
要创建延迟阈值规则:
在 Observability UI 中,转到 Alerts。
从 Alerts 页面中选择 Manage Rules,然后选择 Create rule。
输入规则的 Name,以及任何可选的 Tags 以进行更精细的报告(如果不确定,请留空)。
从 APM 用例中选择 Latency threshold 规则类型。
选择适当的 Service、Type、Environment 和 Name(或保留 ALL 以包含所有选项)。 或者,您可以选择 Use KQL Filter 并输入 KQL 表达式以限制规则的范围。
定义阈值和周期
- When:在
Average
、95th percentile
或99th percentile
之间选择。 - Is Above:输入一个时间值,以毫秒为单位(默认为 1500 毫秒)。
- For the last:定义要评估的周期(默认为过去 5 分钟)。
- When:在
选择如何 Group alerts by。 每个唯一值都将创建一个警报。
定义检查规则的间隔(例如,每 1 分钟检查一次)。
(可选)设置 Actions。
Save 您的规则。
您可以使用与第三方系统交互、写入日志或索引或发送用户通知的操作来扩展规则。 您可以随时向规则添加操作。 您可以在不添加操作的情况下创建规则,也可以为单个规则定义多个操作。
要向规则添加操作,您必须首先为该服务创建一个连接器(例如,电子邮件或外部事件管理系统),然后您可以将其用于不同的规则,每个规则都有自己的操作频率。
连接器类型
连接器提供了一个中心位置,用于存储服务和与第三方系统集成连接信息。 在为警报规则定义操作时,可以使用以下连接器
- Cases
- D3 Security
- IBM Resilient
- Index
- Jira
- Microsoft Teams
- Observability AI Assistant
- Opsgenie
- PagerDuty
- Server log
- ServiceNow ITOM
- ServiceNow ITSM
- ServiceNow SecOps
- Slack
- Swimlane
- Torq
- Webhook
- xMatters
某些连接器类型是付费商业功能,而另一些则是免费的。 有关 Elastic 订阅级别的比较,请转到 订阅页面。
有关创建连接器的更多信息,请参阅 连接器。
操作频率
操作变量
使用默认通知消息或自定义它。 您可以通过单击“添加变量”图标 并从可用变量列表中进行选择,向消息添加更多上下文。

以下变量特定于此规则类型。 您还可以指定 所有规则通用的变量。
context.alertDetailsUrl
- 指向警报故障排除视图的链接,以获取更多上下文和详细信息。 如果未配置
server.publicBaseUrl
,则这将是一个空字符串。 context.environment
- 为其创建警报的事务类型。
context.interval
- 满足警报条件的时间段的长度和单位。
context.reason
- 警报原因的简明描述。
context.serviceName
- 为其创建警报的服务。
context.threshold
- 任何高于此值的触发值都会导致触发警报。
context.transactionName
- 为其创建警报的事务名称。
context.transactionType
- 为其创建警报的事务类型。
context.triggerValue
- 突破阈值并触发警报的值。
context.viewInAppUrl
-
指向警报源的链接。
当服务中特定事务类型的延迟超过定义的阈值时,会触发延迟阈值警报。
在继续之前,请确定要为其创建延迟阈值规则的服务名称、环境名称和事务类型。
本指南将基于以下条件为错误组 ID 创建警报
- 服务:
{your_service.name}
- 事务:
{your_transaction.name}
- 环境:
{your_service.environment}
- 过去 5 分钟的平均延迟高于 1500 毫秒
- 按
service.name
和service.environment
对警报进行分组 - 每 1 分钟检查一次
- 通过电子邮件将警报发送给站点可靠性团队
从 Applications 中的任何页面中,选择 Alerts and rules → Create threshold rule → Latency threshold。 更改警报的名称(如果需要),但不要编辑标签。
根据上述条件,定义以下规则详细信息
- 服务:
{your_service.name}
- 类型:
{your_transaction.name}
- 环境:
{your_service.environment}
- When:
Average
- Is above:
1500ms
- For the last:
5 minutes
- Group alerts by:
service.name
service.environment
- Check every:
1 minute
接下来,选择 Email 连接器,然后单击 Create a connector。 填写所需的详细信息:发件人、主机、端口等,然后选择 Save。
提供了一个默认消息,作为警报的起点。 您可以使用 Mustache 模板语法 ({{variable}}
) 在检测到条件时将其他警报值传递给操作。 可以通过选择“添加变量”按钮来访问可用变量的列表。
选择 Save。 警报已创建并且现在已激活!