查找事务延迟和失败相关性
编辑查找事务延迟和失败相关性
编辑相关性会显示数据中可能与高延迟或错误事务相关的属性。例如,如果您是一位负责保持生产系统正常运行的站点可靠性工程师,您希望了解是什么导致了事务缓慢。识别导致较高延迟事务的属性可能会将您指向根本原因。您可能会发现与特定硬件(如主机或 Pod)的相关性。或者,可能由于本地数据中心问题,一组基于 IP 地址或区域的用户正面临更高的延迟。
要查找相关性,请在应用程序 UI 的 服务 页面上选择一项服务,然后从 事务 选项卡中选择一个事务组。
应用程序 UI 中的查询也适用于相关性分析。
延迟相关性 选项卡上的相关性可帮助您发现哪些属性导致了事务延迟的增加。
进度条指示异步分析的状态,该分析会跨大量属性执行统计搜索。对于大时间范围和具有高事务吞吐量的服务,这可能需要一些时间。要提高性能,请缩短时间范围。
延迟分布图可视化事务组中事务的总体延迟。如果有与慢响应时间具有统计显著相关性的属性,它们会列在图表下方的表格中。该表按相关系数排序,范围从 0 到 1。具有较高相关性值的属性更有可能导致高延迟事务。默认情况下,具有最高相关性值的属性会添加到图表中。要查看其他属性的延迟分布,请在表格中选择它们的行。
如果相关的属性看起来值得注意,请使用 筛选器 快速链接
-
+
在应用程序 UI 中创建一个新查询,用于筛选包含所选值的事务。 -
-
在应用程序 UI 中创建一个新查询,用于筛选出包含所选值的事务。
您也可以单击字段名称旁边的图标来查看和筛选其最常用的值。
在此示例屏幕截图中,有些事务偏向右侧,其响应时间比总体延迟分布慢。如果您在表格的相应行中选择 +
筛选器,它会在应用程序 UI 中为具有此属性的事务创建一个新查询。现在,“噪声”已被过滤掉,您可以开始查看示例跟踪以继续您的调查。
失败事务相关性 选项卡上的相关性可帮助您发现哪些属性对区分事务失败和成功影响最大。在这种情况下,事务的成功或失败由其 event.outcome 值确定。例如,当 HTTP 事务返回 5xx
状态代码时,APM 代理会将 event.outcome
设置为 failure
。
该图表突出显示了事务组整体延迟分布中的失败事务。如果有与失败事务具有统计显著相关性的属性,它们会列在一个表格中。该表按分数排序,这些分数映射到高、中或低影响级别。具有高影响级别的属性更有可能导致失败事务。默认情况下,具有最高分数的属性会添加到图表中。要在图表中查看不同的属性,请在表格中选择其行。
例如,在下面的屏幕截图中,有一些属性(如特定的节点和 Pod 名称)对失败事务有中等影响。
选择 +
筛选器,在应用程序 UI 中为具有一个或多个这些属性的事务创建一个新查询。如果您不熟悉某个字段,请单击其名称旁边的图标来查看其最常用的值,并可选择对这些值进行筛选。每次添加另一个属性时,它都会过滤掉越来越多的噪声,并使您更接近诊断。