› › ›

创建服务级别目标 (SLO)

编辑

创建服务级别目标 (SLO)

编辑

要创建和管理 SLO，您需要合适的许可证，并且必须配置 SLO 访问权限。

要创建 SLO，请在主菜单中找到 SLO 或使用全局搜索字段。

如果您是第一次创建 SLO，您将看到一个介绍页面。点击 创建 SLO 按钮。
如果您之前创建过 SLO，请点击页面右上角的 创建新的 SLO 按钮。

在此处，完成以下步骤

定义您的 SLI

编辑

要使用的 SLI 类型取决于数据的位置

自定义 KQL — 基于来自您服务的原始日志创建 SLI。
自定义指标 — 创建 SLI 以从索引中的指标字段定义自定义公式。
时间切片指标 — 基于使用多个聚合的自定义公式创建 SLI。
直方图指标 — 基于直方图指标创建 SLI。
APM 延迟和 APM 可用性 — 基于使用应用程序性能监控 (APM) 的服务创建 SLI。
合成监控可用性 — 基于合成监控的可用性创建 SLI。

自定义 KQL

编辑

基于您的任何 Elasticsearch 索引或数据视图创建指标。您定义两个查询：一个从您的索引中生成良好事件，另一个从您的索引中生成所有事件。

示例：您可以基于 service-logs 定义一个自定义 KQL 指标，其中 良好查询 定义为 nested.field.response.latency <= 100 and nested.field.env : “production”，而 总查询 定义为 nested.field.env : “production”。

在定义自定义 KQL SLI 时，请设置以下字段

索引 — 您要以此为基础创建 SLI 的数据视图或索引模式。例如，service-logs。
时间戳字段 — 索引使用的时间戳字段。
查询过滤器 — 用于指定筛选索引文档的相关条件的 KQL 过滤器。
良好查询 — 生成被认为良好或成功的事件的查询。例如，nested.field.response.latency <= 100 and nested.field.env : “production”
总查询 — 生成所有事件以用于计算 SLI 的查询。例如，nested.field.env : “production”。
分组依据 — 用于根据特定字段的值对数据进行分组的字段。例如，您可以按 url.domain 字段进行分组，这将为所选字段的每个值创建单独的 SLO。

自定义指标

编辑

创建一个指标以从索引中的指标字段定义自定义公式。

示例：您可以将 良好事件 定义为字段 processor.processed 的总和，并使用过滤器 "processor.outcome: \"success\""，并将 总事件 定义为 processor.processed 的总和，并使用过滤器 "processor.outcome: *"。

在定义自定义指标 SLI 时，请设置以下字段

来源
- 索引 — 您要以此为基础创建 SLI 的数据视图或索引模式。例如，my-service-*。
- 时间戳字段 — 索引使用的时间戳字段。
- 查询过滤器 — 用于指定筛选索引文档的相关条件的 KQL 过滤器。例如，'field.environment : "production" and service.name : "my-service"'。
良好事件
- 指标 [A-Z] — 使用 sum 聚合对良好事件进行聚合的字段。例如，processor.processed。
- 过滤器 [A-Z] — 应用于良好事件指标的过滤器。例如，"processor.outcome: \"success\""。
- 公式 — 计算良好指标的公式。例如，A。
总事件
- 指标 [A-Z] — 使用 sum 聚合对总事件进行聚合的字段。例如，processor.processed
- 过滤器 [A-Z] — 应用于总事件指标的过滤器。例如，"processor.outcome: *"
- 公式 — 计算总指标的公式。例如，A。
分组依据 — 用于根据特定字段的值对数据进行分组的字段。例如，您可以按 url.domain 字段进行分组，这将为所选字段的每个值创建单独的 SLO。

时间切片指标

编辑

基于使用统计聚合和阈值来确定切片是好是坏的自定义公式创建指标。支持的聚合包括 Average、Max、Min、Sum、Cardinality、Last value、Std. deviation、Doc count 和 Percentile。该公式支持基本的数学和逻辑运算。

此指标要求您使用 Timeslices 预算方法。

示例：您可以定义一个指标来确定 Kubernetes StatefulSet 是否健康。首先，您将查询过滤器设置为 orchestrator.cluster.name: "elastic-k8s" AND kubernetes.namespace: "my-ns" AND data_stream.dataset: "kubernetes.state_statefulset"。然后，您定义一个公式来比较就绪（健康）副本的数量与观察到的副本的数量：A == B ? 1 : 0，其中 A 检索 kubernetes.statefulset.replicas.ready 的最后一个值，而 B 检索 kubernetes.statefulset.replicas.observed 的最后一个值。如果条件 A == B 为真（表示副本数量相同），则该公式返回 1；否则返回 0。如果该值小于 1，则可以确定 Kubernetes StatefulSet 不健康。

在定义时间切片指标 SLI 时，请设置以下字段

来源
- 索引 — 您要以此为基础创建 SLI 的数据视图或索引模式。例如，metrics-*:metrics-*。
- 时间戳字段 — 索引使用的时间戳字段。
- 查询过滤器 — 用于指定筛选索引文档的相关条件的 KQL 过滤器。例如，orchestrator.cluster.name: "elastic-k8s" AND kubernetes.namespace: "my-ns" AND data_stream.dataset: "kubernetes.state_statefulset"。
指标定义
- 聚合 [A-Z] — 要使用的聚合类型。
- 字段 [A-Z] — 在聚合中使用的字段。例如，kubernetes.statefulset.replicas.ready。
- 过滤器 [A-Z] — 应用于指标的过滤器。
- 公式 — 计算总指标的公式。例如，A == B ? 1 : 0。
- 比较器 - 要执行的比较类型。
- 阈值 - 与比较器一起使用的值，以确定切片是好是坏。

直方图指标

编辑

直方图以压缩格式记录数据，并且可以记录延迟和延迟指标。您可以使用 range 聚合或 value_count 聚合来创建基于直方图指标的 SLI，以用于良好事件和总事件。两种事件类型都支持使用 KQL 查询进行筛选。

使用 range 聚合时，范围的 from 和 to 阈值都必须提供，事件是该范围内的事件总数。范围包括 from 值，但不包括 to 值。

示例：您可以使用过滤器 "processor.outcome: \"success\"" 定义您的 良好事件，使用字段 processor.latency，并使用过滤器 "processor.outcome: *" 定义您的 总事件，使用字段 processor.latency。

在定义直方图指标 SLI 时，请设置以下字段

来源
- 索引 — 您要以此为基础创建 SLI 的数据视图或索引模式。例如，my-service-*。
- 时间戳字段 — 索引使用的时间戳字段。
- 查询过滤器 — 用于指定筛选索引文档的相关条件的 KQL 过滤器。例如，field.environment : "production" and service.name : "my-service"。
良好事件
- 聚合 — 用于良好事件的聚合类型，可以是 值计数 或范围。
- 字段 — 用于聚合被认为良好或成功的事件的字段。例如，processor.latency。
- 从 —（仅限 range 聚合）良好事件范围的起始值。例如，0。
- 到 —（仅限 range 聚合）良好事件范围的结束值。例如，100。
- KQL 过滤器 — 良好事件的过滤器。例如，"processor.outcome: \"success\""。
总事件
- 聚合 — 用于计算总事件的聚合类型，可以是 值计数 或范围。
- 字段 — 用于聚合总事件的字段。例如，processor.latency。
- 从 — (range 聚合专用) 总事件范围的起始值。例如，0。
- 到 — (range 聚合专用) 总事件范围的结束值。例如，100。
- KQL 过滤器 — 总事件的过滤器。例如，"processor.outcome : *"。
分组依据 — 用于根据特定字段的值对数据进行分组的字段。例如，您可以按 url.domain 字段进行分组，这将为所选字段的每个值创建单独的 SLO。