创建和管理规则
编辑创建和管理规则编辑
堆栈管理 > 规则 UI 提供跨应用的警报视图。不同的 Kibana 应用(如 可观测性、安全、地图 和 机器学习)可以提供自己的规则。规则 提供了一个中心位置来
有关警报概念以及可用规则和连接器类型的更多信息,请转到 警报。
所需权限编辑
对规则的访问权限基于您的警报功能权限。有关更多信息,请转到 安全。
创建和编辑规则编辑
某些规则必须在 Kibana 应用(如 指标、APM 或 正常运行时间)的上下文中创建,但其他规则是通用的。可以通过单击 创建规则 按钮在 规则 中创建通用规则类型。这将启动一个弹出窗口,指导您选择规则类型并配置其条件和操作。
创建规则后,您可以打开操作菜单 (…) 并选择 编辑规则 以重新打开弹出窗口并更改规则属性。
您还可以使用 Terraform 的 Elasticstack 提供程序 将规则作为资源进行管理。有关更多详细信息,请参阅 elasticstack_kibana_alerting_rule 资源。
规则类型和条件编辑
根据 Kibana 应用和上下文,系统可能会提示您选择要创建的规则类型。某些应用会为您预先选择规则类型。
每种规则类型都提供自己的定义要检测的条件的方式,但由一系列子句形成的表达式是一种常见模式。例如,在 Elasticsearch 查询规则中,您需要指定索引、查询和阈值,该阈值使用指标聚合操作(count
、average
、max
、min
或 sum
)
所有规则都必须有一个检查间隔,该间隔定义评估规则条件的频率。检查已排队;它们在容量允许的情况下尽可能接近定义的值运行。
有关可用规则类型以及如何配置它们的详细信息,请参阅 规则类型。
操作编辑
您可以向规则添加一个或多个操作,以便在其条件满足和不再满足时生成通知。
每个操作都使用一个连接器,该连接器提供 Kibana 服务或第三方集成的连接信息,具体取决于您要将通知发送到哪里。
[预览] 此功能处于技术预览阶段,可能会在未来版本中更改或删除。Elastic 将努力解决任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 的约束。 一些在 Kibana 中执行操作的连接器(例如 案例连接器)需要的配置较少。例如,您不需要设置操作频率或变量。
选择连接器后,设置操作频率。您可以选择在每个检查间隔或自定义间隔上创建警报摘要。或者,您可以选择为每个警报运行操作(在每个检查间隔、仅当警报状态更改时或在自定义间隔)。
如果选择自定义操作间隔,则该间隔不能短于规则的检查间隔。
例如,如果您创建 Elasticsearch 查询规则,则可以发送通知,以自定义间隔汇总新的、正在进行的和已恢复的警报
当您选择为每个警报运行操作时,必须指定一个操作组。每个规则类型都有一组有效的操作组,这些操作组会影响操作的运行时间。例如,您可以为 Elasticsearch 查询规则将 运行时间 设置为 查询匹配
或 已恢复
连接器对每个操作组都有独特的行为。例如,您可以设置在满足规则条件时创建 Opsgenie 警报的操作,以及关闭 Opsgenie 警报的恢复操作。有关连接器的更多信息,请参阅 连接器。
如果您没有使用警报摘要,则会为每个警报生成操作,并且规则最终可能会生成大量操作。以下面的示例为例,其中规则每分钟监控三台服务器的 CPU 使用率 > 0.9,并且操作频率为 按检查间隔
- 第 1 分钟:服务器 X123 > 0.9。一封电子邮件 已发送给服务器 X123。
- 第 2 分钟:X123 和 Y456 > 0.9。两封电子邮件 已发送,一封发送给 X123,另一封发送给 Y456。
- 第 3 分钟:X123、Y456、Z789 > 0.9。三封电子邮件 已发送,X123、Y456、Z789 各收到一封。
在此示例中,在 3 分钟的时间跨度内,针对同一规则向服务器 X123 发送了三封电子邮件。通常,最好抑制这些重新通知。如果将操作频率设置为 按自定义操作间隔
,间隔为 5 分钟,则可以通过仅每 5 分钟接收一次持续超过阈值的服务器的电子邮件来减少噪音
- 第 1 分钟:服务器 X123 > 0.9。一封电子邮件 将发送给服务器 X123。
- 第 2 分钟:X123 和 Y456 > 0.9。一封电子邮件 将发送给 Y456。
- 第 3 分钟:X123、Y456、Z789 > 0.9。一封电子邮件 将发送给 Z789。
要在服务器超过阈值时仅接收一次通知,可以将操作频率设置为 状态更改时
。或者,考虑使用警报摘要来减少通知量。
操作变量编辑
您可以在检测到条件时将规则值传递给操作。要查看规则可用的变量列表,请单击“添加规则变量”按钮
有关常见操作变量的更多信息,请参阅 规则操作变量。
暂停和禁用规则编辑
规则列表使您可以快速暂停、禁用、启用或删除单个规则。例如,您可以更改规则的状态
如果存在当前不需要的规则,请禁用它们以停止运行检查并减少集群上的负载。
当您暂停规则时,规则检查会继续按计划运行,但警报不会生成操作。您可以暂停一段时间、无限期暂停或安排单次或定期停机时间
当规则处于暂停状态时,您可以取消或更改此状态的持续时间。
[预览] 此功能处于技术预览阶段,可能会在未来版本中更改或删除。Elastic 将努力解决任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 的约束。 要临时抑制规则的通知,您还可以创建一个 维护窗口。
查看规则详细信息编辑
您可以通过查看 堆栈管理 > 规则 中的 上次响应 来确定规则的运行状况。规则可以具有以下响应之一
-
失败
- 规则运行时出错。
-
成功
- 规则运行时没有错误。
-
警告
- 规则运行时出现了一些非关键错误。
单击规则名称以访问规则详细信息页面
在此示例中,该规则检测站点在 24 小时内提供的字节数是否超过阈值。四个站点高于阈值。这些称为警报 - 检测到条件的发生次数 - 此视图中显示了警报名称、状态、检测时间和条件持续时间。警报会根据是否满足规则条件而从列表中添加或删除。有关警报的更多信息,请转到 查看警报。
如果存在运行失败的规则操作,您可以在历史记录选项卡上查看详细信息。在消息列中,单击警告或展开图标或单击错误操作列中的数字以打开错误操作面板。在本例中,操作失败是因为xpack.actions.email.domain_allowlist
设置已更新,并且操作的电子邮件收件人不再包含在允许列表中。
导入和导出规则编辑
要导入和导出规则,请使用已保存的对象。
规则在导出时被禁用。系统会提示您在成功导入后重新启用规则。