创建和管理规则

编辑

创建和管理规则

编辑

堆栈管理 > 规则 UI 提供了跨应用的告警视图。不同的 Kibana 应用,如 可观测性安全地图机器学习,都可以提供自己的规则。

您可以在 Kibana 中的 堆栈管理 > 告警和洞察 > 规则 中找到 规则,或者使用全局搜索字段

Rules page navigation

规则 提供了一个中心位置来:

有关告警概念以及可用规则和连接器类型的更多信息,请转到告警

所需权限

编辑

对规则的访问是根据您的告警功能权限授予的。有关更多信息,请转到安全

创建和编辑规则

编辑

一些规则必须在 Kibana 应用的上下文中创建,如 指标APM正常运行时间,但其他规则是通用的。通用规则类型可以通过单击 规则 中的 创建规则 按钮来创建。这将启动一个浮出窗口,引导您选择规则类型并配置其条件和操作。

创建规则后,您可以打开操作菜单 (…) 并选择 编辑规则 以重新打开浮出窗口并更改规则属性。

您还可以使用 Terraform 的 Elasticstack 提供程序将规则作为资源进行管理。有关更多详细信息,请参阅 elasticstack_kibana_alerting_rule 资源。

规则类型和条件

编辑

根据 Kibana 应用和上下文,可能会提示您选择要创建的规则类型。一些应用会为您预选规则类型。

每种规则类型都提供了自己定义要检测的条件的方式,但由一系列子句形成的表达式是一种常见的模式。例如,在 Elasticsearch 查询规则中,您可以指定索引、查询和阈值,该阈值使用度量聚合操作(countaveragemaxminsum

UI for defining rule conditions in an Elasticsearch query rule

所有规则都必须有一个检查间隔,该间隔定义了评估规则条件的频率。检查将排队;它们会在容量允许的情况下尽可能接近定义的值运行。

有关可用规则类型以及如何配置它们的详细信息,请参阅规则类型

操作

编辑

您可以向规则添加一个或多个操作,以便在其条件满足时以及不再满足时生成通知。

每个操作都使用一个连接器,该连接器提供 Kibana 服务或第三方集成的连接信息,具体取决于您希望将通知发送到何处。

[预览] 此功能为技术预览版,可能会在未来的版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 的约束。 一些在 Kibana 中执行操作的连接器,例如 案例连接器,需要的配置较少。例如,您无需设置操作频率或变量。

选择连接器后,设置操作频率。您可以选择在每个检查间隔或自定义间隔中创建告警摘要。或者,您可以选择为每个告警运行操作(在每个检查间隔,仅当告警状态更改时,或在自定义间隔)。

如果您选择自定义操作间隔,则该间隔不能短于规则的检查间隔。

例如,如果您创建 Elasticsearch 查询规则,则可以发送通知,汇总自定义间隔中新的、正在进行的和已恢复的告警

UI for defining alert summary action in an Elasticsearch query rule

当您选择为每个告警运行操作时,必须指定一个操作组。每种规则类型都有一组有效的操作组,这些组会影响操作的运行时间。例如,您可以将 运行时间 设置为 查询匹配已恢复 用于 Elasticsearch 查询规则

UI for defining a recovery action

连接器对每个操作组都有独特的行为。例如,您可以设置在规则条件满足时创建 Opsgenie 告警的操作,以及关闭 Opsgenie 告警的恢复操作。有关连接器的更多信息,请参阅 连接器

如果您不使用告警摘要,则会为每个告警生成操作,并且一个规则最终可能会生成大量操作。以下面的示例为例,其中一个规则每分钟监控三台服务器的 CPU 使用率 > 0.9,操作频率为 在检查间隔

  • 第 1 分钟:服务器 X123 > 0.9。为服务器 X123 发送一封电子邮件
  • 第 2 分钟:X123 和 Y456 > 0.9。发送两封电子邮件,一封用于 X123,另一封用于 Y456。
  • 第 3 分钟:X123、Y456、Z789 > 0.9。发送三封电子邮件,每封分别用于 X123、Y456、Z789。

在此示例中,在 3 分钟内为同一规则的服务器 X123 发送了三封电子邮件。通常,希望禁止这些重新通知。如果您将操作频率设置为 在自定义操作间隔,间隔为 5 分钟,则可以通过仅每 5 分钟收到一次持续超过阈值的服务器的电子邮件来减少噪音

  • 第 1 分钟:服务器 X123 > 0.9。将为服务器 X123 发送一封电子邮件
  • 第 2 分钟:X123 和 Y456 > 0.9。将为 Y456 发送一封电子邮件
  • 第 3 分钟:X123、Y456、Z789 > 0.9。将为 Z789 发送一封电子邮件

要仅在服务器超过阈值时收到一次通知,您可以将操作频率设置为 在状态更改时。或者,考虑使用告警摘要来减少通知量。

操作变量

编辑

您可以在检测到条件时将规则值传递给操作。要查看规则可用的变量列表,请单击“添加规则变量”按钮

Passing rule values to an action

有关常见操作变量的更多信息,请参阅规则操作变量

暂缓和禁用规则

编辑

规则列表使您可以快速暂缓、禁用、启用或删除单个规则。例如,您可以更改规则的状态

Use the rule status dropdown to enable or disable an individual rule

如果当前不需要某些规则,请禁用它们以停止运行检查并减少群集上的负载。

当您暂缓规则时,规则检查会继续按计划运行,但告警不会生成操作。您可以暂缓指定的时间段、无限期暂缓或安排单次或重复停机

Snooze notifications for a rule

当规则处于暂缓状态时,您可以取消或更改此状态的持续时间。

[预览] 此功能为技术预览版,可能会在未来的版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 的约束。 要临时禁止规则的通知,您还可以创建一个维护窗口

查看规则详细信息

编辑

您可以通过查看 堆栈管理 > 规则 中的 上次响应 来确定规则的运行状况。规则可以具有以下响应之一:

失败
规则运行出现错误。
成功
规则运行没有错误。
警告
规则运行出现一些非严重错误。

单击规则名称以访问规则详细信息页面

Rule details page with multiple alerts

在此示例中,该规则检测站点在 24 小时内提供的字节数是否超过阈值。有四个站点高于阈值。这些称为告警(检测到条件的发生),此视图中显示告警名称、状态、检测时间和条件的持续时间。告警会根据是否满足规则条件来从列表中出现和消失。有关告警的更多信息,请转到查看告警

如果存在未能成功运行的规则操作,您可以在 历史记录 选项卡上查看详细信息。在 消息 列中,单击警告或展开图标 用于打开包含文档详细信息的浮出窗口的双箭头图标 或单击 错误操作 列中的数字以打开 错误操作 面板。在此示例中,操作失败是因为 xpack.actions.email.domain_allowlist 设置已更新,并且操作的电子邮件收件人不再包含在允许列表中

Rule histor page with alerts that have errored actions

导入和导出规则

编辑

要导入和导出规则,请使用已保存的对象

某些规则类型无法通过此界面导出

安全规则可以使用安全用户界面进行导入和导出。

堆栈监控规则会为您自动创建,因此无法在已保存对象中管理。

规则在导出时会被禁用。成功导入后,系统会提示您重新启用该规则。

Rules import banner