查找事务延迟和故障关联
编辑查找事务延迟和故障关联编辑
关联会显示数据中可能与高延迟或错误事务相关的属性。例如,如果您是一名负责维护生产系统正常运行的站点可靠性工程师,您需要了解是什么原因导致了事务速度缓慢。识别导致高延迟事务的属性可能会为您指明根本原因。您可能会发现与特定硬件(如主机或 Pod)存在关联。或者,也许一组用户(基于 IP 地址或地区)由于本地数据中心问题而面临延迟增加。
要查找关联,请在 APM 应用的服务页面上选择一个服务,然后从事务选项卡中选择一个事务组。
APM 应用中的查询也会应用于关联。
查找高事务延迟关联编辑
延迟关联选项卡上的关联可帮助您发现哪些属性导致了事务延迟的增加。
进度条指示异步分析的状态,该分析会对大量属性执行统计搜索。对于时间范围较大和事务吞吐量较高的服务,这可能需要一些时间。要提高性能,请缩短时间范围。
延迟分布图可视化了事务组中事务的总体延迟。如果存在与缓慢响应时间具有统计显著性的关联属性,则它们会列在图表下方的表格中。该表格按相关系数排序,相关系数的范围为 0 到 1。相关值较高的属性更有可能导致高延迟事务。默认情况下,相关值最高的属性会添加到图表中。要查看其他属性的延迟分布,请选择表格中相应的行。
如果某个关联属性看起来值得注意,请使用筛选器快速链接
-
+
在 APM 应用中创建一个新查询,用于筛选包含所选值的事务。 -
-
在 APM 应用中创建一个新查询,用于筛选出包含所选值的事务。
您还可以单击字段名称旁边的图标,以查看和筛选其最常用的值。
在此示例屏幕截图中,有些事务向右倾斜,响应时间比总体延迟分布要慢。如果您在表格的相应行中选择+
筛选器,它将在 APM 应用中创建一个针对具有此属性的事务的新查询。现在已筛选掉“噪音”,您可以开始查看示例跟踪以继续调查。
查找失败事务关联编辑
失败事务关联选项卡上的关联可帮助您发现哪些属性在区分事务失败和成功方面最具影响力。在这种情况下,事务的成功或失败由其event.outcome值决定。例如,当 HTTP 事务返回5xx
状态代码时,APM 代理会将event.outcome
设置为failure
。
该图表突出显示了事务组的总体延迟分布中的失败事务。如果存在与失败事务具有统计显著性的关联属性,则它们会列在表格中。该表格按分数排序,分数映射到高、中或低影响级别。影响级别高的属性更有可能导致事务失败。默认情况下,得分最高的属性会添加到图表中。要在图表中查看不同的属性,请选择表格中相应的行。
例如,在下面的屏幕截图中,某些属性(如特定节点和 Pod 名称)对失败事务有中等影响。
选择+
筛选器,以在 APM 应用中为具有一种或多种此类属性的事务创建一个新查询。如果您不熟悉某个字段,请单击其名称旁边的图标以查看其最常用的值,并可以选择性地筛选这些值。每次添加另一个属性时,它都会筛选掉越来越多的噪音,使您更接近诊断结果。