查找事务延迟和故障关联
编辑查找事务延迟和故障关联
编辑关联显示数据的属性,这些属性可能与高延迟或错误事务相关。例如,如果您是负责维护生产系统正常运行的站点可靠性工程师,则需要了解导致事务缓慢的原因。识别导致更高延迟事务的属性可能会帮助您找到根本原因。您可能会发现与特定硬件(例如主机或 Pod)的关联。或者,基于 IP 地址或区域的一组用户由于本地数据中心问题而面临延迟增加。
要查找关联,请在应用程序 UI 的服务页面中选择一项服务,然后从事务选项卡中选择一个事务组。
应用程序 UI 中的查询也应用于关联。
延迟关联选项卡上的关联可以帮助您发现哪些属性会导致事务延迟增加。
进度条指示异步分析的状态,该分析会对大量属性执行统计搜索。对于较大的时间范围和具有高事务吞吐量的服务,这可能需要一些时间。为了提高性能,请缩短时间范围。
延迟分布图表可视化事务组中事务的整体延迟。如果某些属性与缓慢响应时间具有统计学上的显著关联,则它们会列在图表下方的表格中。该表格按相关系数排序,范围从 0 到 1。相关值较高的属性更有可能导致高延迟事务。默认情况下,相关值最高的属性将添加到图表中。要查看其他属性的延迟分布,请选择表格中的相应行。
如果某个关联属性看起来很重要,请使用筛选器快速链接
-
+
在应用程序 UI 中创建一个新查询,用于筛选包含所选值的交易。 -
-
在应用程序 UI 中创建一个新查询,用于筛选出包含所选值的交易。
您还可以单击字段名称旁边的图标,以查看其最常用的值并对其进行筛选。
在此示例屏幕截图中,一些事务偏向右侧,响应时间比整体延迟分布慢。如果您选择表格相应行中的+
筛选器,它会在应用程序 UI 中为具有此属性的事务创建一个新查询。现在“噪声”已被过滤掉,您可以开始查看示例跟踪以继续调查。
失败事务关联选项卡上的关联可以帮助您发现哪些属性最能区分事务失败和成功。在此上下文中,事务的成功或失败由其event.outcome值决定。例如,当 HTTP 事务返回5xx
状态码时,APM 代理会将event.outcome
设置为failure
。
该图表突出显示了事务组整体延迟分布中的失败事务。如果某些属性与失败事务具有统计学上的显著关联,则它们会列在表格中。该表格按分数排序,分数映射到高、中或低影响级别。影响级别高的属性更有可能导致事务失败。默认情况下,分数最高的属性将添加到图表中。要查看图表中的不同属性,请选择表格中的相应行。
例如,在下面的屏幕截图中,某些属性(例如特定节点和 Pod 名称)对失败事务具有中等影响。
选择+
筛选器,在应用程序 UI 中为具有一个或多个这些属性的事务创建新查询。如果您不熟悉某个字段,请单击其名称旁边的图标以查看其最常用的值,并可以选择对这些值进行筛选。每次添加另一个属性时,它都会过滤掉越来越多的噪声,并使您更接近诊断结果。