基于采样的分析器
编辑基于采样的分析器
编辑此功能处于技术预览阶段,可能会在将来的版本中更改或删除。Elastic 将致力于修复任何问题,但技术预览中的功能不受官方 GA 功能的支持 SLA 的约束。
此功能在 Windows 和 OpenJ9 上不受支持
无需记录每个事件,而是利用代理与 async-profiler 的内置集成,定期请求所有正在运行线程的堆栈跟踪。这意味着无需将测量插入所有方法中,从而使这种方法的开销极低。然后将堆栈跟踪与跨度激活事件相关联,并创建慢速方法的分析器推断跨度。就这样,我们准确地检测了当前事务和跨度之间正在执行的内容。
用例
编辑- 开发:当试图找出刚刚发出的请求为何缓慢时。
- 负载测试/生产:分析某些请求为何比其他请求慢时。
- 客户支持:当用户抱怨他们在中午发出的特定请求很慢时,尤其是在开发或暂存环境中无法重现这种缓慢的情况时。
优势
编辑- 无需知道要监控哪些方法:无需预先指定特定方法名称即可查找慢速方法。分析器会自动将慢速方法作为 APM 应用程序中的跨度显示。
- 低开销。可用于生产环境:基于分析器的方法旨在具有足够低的开销,可在生产环境中运行;持续运行它以提供对慢速方法的洞察。
如何使用 async-profiler 启用推断跨度
编辑通过将 profiling_inferred_spans_enabled
设置为 true
来启用推断跨度。
调整堆栈跟踪频率
通过调整 profiling_inferred_spans_sampling_interval
来调整在分析会话中收集堆栈跟踪的频率。采样间隔越低,推断跨度的准确性和详细程度越高。当然,详细程度越高,分析器开销和 Elasticsearch 索引大小就越高。由于大部分处理工作是在后台完成的,因此对用户请求响应时间的影响可以忽略不计。
清理 APM 应用程序中的杂乱信息
通过设置 span_min_duration
,过滤掉比配置阈值更快的推断跨度,并避免 APM 应用程序中出现快速执行方法的杂乱信息。
包含和排除特定类
使用 profiling_inferred_spans_included_classes
显式包含类;使用 profiling_inferred_spans_excluded_classes
排除类。通常,包含的类越少,处理速度越快,内存效率越高。
默认情况下,JDK 和大多数应用程序服务器中的类都被排除在外。这减少了不重要的推断跨度的数量。
启用推断跨度的示例 elasticapm.properties
文件
profiling_inferred_spans_enabled=true profiling_inferred_spans_sampling_interval=50ms profiling_inferred_spans_min_duration=250ms profiling_inferred_spans_included_classes=org.example.myapp.* profiling_inferred_spans_excluded_classes=org.example.myapp.ignoreme.*
注意事项
编辑推断跨度是估计值,而不是精确测量值。它们可能在方法实际开始后开始,并在方法实际结束前结束。这可能会导致不一致,所有这些都在 apm-profiling-plugin 自述文件 中有说明。
另请注意,事务中的第一个推断跨度没有堆栈跟踪,因为它很可能是非典型的——它通常是入口点,其中包含大量有关服务器如何接受请求等的信息。连续的推断跨度具有指向其父级的堆栈跟踪。这意味着长时间运行的方法可能显示为推断跨度机制中的跨度,但不显示关联的堆栈跟踪。