检测指标异常编辑

启用机器学习的异常检测功能后,您可以创建机器学习作业来检测和检查主机和 Kubernetes Pod 的内存使用情况和网络流量异常。

您可以对主机或 Pod 的系统内存使用情况以及入站和出站网络流量进行建模。您可以检测主机或 Pod 上内存使用量的异常增加以及异常高的入站或出站流量。

为主机或 Kubernetes Pod 启用机器学习作业编辑

创建机器学习作业以自动检测异常的内存使用情况和网络流量。

创建机器学习作业后,您无法更改设置。您可以稍后重新创建这些作业。但是,您将删除之前检测到的任何异常。

  1. 转到 可观测性 → 基础设施 → 库存 并单击页面顶部的 异常检测 链接。
  2. 系统将提示您为 主机Kubernetes Pod 创建机器学习作业。单击 启用
  3. 选择机器学习分析的开始日期。

    机器学习作业分析过去四周的数据,并无限期运行。

  4. 选择一个分区字段。

    默认情况下,会选择 Kubernetes 分区字段 kubernetes.namespace

    分区允许您为具有类似行为的不同数据组创建独立模型。例如,您可能希望为机器类型或云可用区构建单独的模型,以便异常不会在各组之间被同等加权。

  5. 默认情况下,机器学习作业分析所有指标数据,结果列在 异常 选项卡下。您可以过滤此列表以仅查看您感兴趣的作业或指标。例如,您可以按作业名称和节点名称进行过滤,以查看该主机的特定异常检测作业。
  6. 单击 启用作业
  7. 您现在可以探索指标异常。单击 异常

    Infrastructure Machine Learning anomalies

    异常 表显示特定主机或 Kubernetes Pod 的每个单指标异常检测作业的列表。默认情况下,异常作业按时间排序,以显示最新的作业。

    除了每个异常作业和节点名称外,还列出了严重程度评分等于或高于 50 的检测到的异常。这些评分代表所选时间段内“警告”或更高的严重程度。 摘要 值表示异常记录结果中实际值与指标的预期(“典型”)值之间的增量。

    要深入分析指标异常,请选择 操作 → 在异常资源管理器中打开 以查看 机器学习中的异常资源管理器。您也可以选择 操作 → 在库存中显示 以查看主机或 Kubernetes Pod 库存页面,并按特定指标进行过滤。

    这些预定义的异常检测作业使用 自定义规则。要在 异常资源管理器 中更新规则,请选择 操作 → 配置规则。更改仅对新结果生效。如果您想将更改应用于现有结果,请克隆并重新运行作业。

历史图表编辑

库存 页面上,单击 显示历史记录 以查看所选时间范围内的指标值。检测到的异常评分等于或高于 50 的异常将以红色突出显示。要检查检测到的异常,请使用 异常资源管理器

History