Triage SLO 烧毁率违规编辑

当在指定时间段内不良事件的百分比超过您在 SLO 烧毁率规则 中设置的阈值时,就会发生 SLO 烧毁率违规。发生这种情况时,您就有可能耗尽错误预算并违反 SLO。

要快速分类问题,请转到警报详细信息页面

  1. 转到 可观测性警报(或打开 SLO 并单击 警报)。
  2. 在“警报”表中,单击警报旁边的 更多操作 图标,然后选择 查看警报详细信息

“警报详细信息”页面显示有关警报的信息,包括警报触发时间、警报持续时间、源 SLO 以及触发警报的规则。您可以点击链接导航到源 SLO 或规则定义。

浏览页面上的图表以详细了解 SLO 违规

Alert details for SLO burn rate breach
  • 第一个图表显示了警报处于活动状态时的时间范围内烧毁率。该线表示 SLO 与违反阈值的接近程度。
  • 下一个图表显示了过去 30 天的警报历史记录。它显示了触发的警报数量以及违规后恢复所需的平均时间。
  • 两个时间线都添加了注释,以显示何时违反了阈值。您可以将鼠标悬停在警报图标上以查看警报的时间戳。

这些违规的次数、持续时间和频率随时间推移的变化可以让您了解服务的降级程度,以便您可以首先关注严重程度较高的问题。

警报详细信息页面的内容可能会因 SLO 中定义的 SLI 类型而异。

调查警报后,您可能需要

  • 单击 暂停规则 以在特定时间段内或无限期地暂停通知。
  • 单击 操作 图标,然后选择 添加到案例 以将警报添加到新案例或现有案例。要了解更多信息,请参阅 案例
  • 单击 操作 图标,然后选择 标记为未跟踪。将警报标记为未跟踪后,将不再生成操作。当您禁用或删除规则时,可以选择将活动警报移动到此状态。