处理 SLO 燃尽率违规

编辑

当指定时间段内不良事件的百分比超过您在SLO 燃尽率规则中设置的阈值时,就会发生 SLO 燃尽率违规。发生这种情况时,您有耗尽错误预算并违反 SLO 的风险。

要快速处理问题,请转到告警详情页面

  1. 打开 SLO 并点击告警
  2. 在“告警”表格中,点击告警旁边的更多操作图标,然后选择查看告警详情

告警详情页面显示有关告警的信息,包括告警触发时间、告警持续时间、源 SLO 以及触发告警的规则。您可以按照链接导航到源 SLO 或规则定义。

探索页面上的图表以了解有关 SLO 违规的更多信息

  • 燃尽率图表。第一个图表显示告警处于活动状态的时间范围内的燃尽率。该线表示 SLO 距离违反阈值有多近。

    Alert details for SLO burn rate breach

    时间轴上标注了违反阈值的时间。您可以将鼠标悬停在告警图标上以查看告警的时间戳。

  • 告警历史图表。下一个图表提供有关过去 30 天内相同规则和组的告警信息。它显示每天触发的告警数量、30 天内触发的告警总数以及违规后恢复的平均时间。

    Alert history chart in alert details for SLO burn rate breach

随着时间的推移,这些违规的数量、持续时间和频率可以为您提供服务下降程度的指示,以便您可以首先关注严重性高的问题。

告警详情页面的内容可能会因 SLO 中定义的 SLI 类型而异。

调查完告警后,您可能需要

  • 点击暂停规则以在特定时间段内或无限期地暂停通知。
  • 点击操作图标,然后选择添加到工单以将告警添加到新的或现有的工单中。要了解更多信息,请参阅工单
  • 点击操作图标,然后选择标记为未跟踪。当告警标记为未跟踪时,将不再生成操作。当您禁用或删除规则时,可以选择将活动告警移动到此状态。