LLM 可观测性
虽然 LLM 具有令人难以置信的变革潜力,但它们也带来了可靠性、性能和成本管理方面的复杂挑战。 传统的监控工具需要一套不断发展的可观测性功能,以确保这些模型高效且有效地运行。 为了保持 LLM 驱动的应用程序的可靠、高效、经济高效且易于排除故障,Elastic 提供了一个强大的 LLM 可观测性框架,包括关键指标、日志和追踪,以及预配置的、开箱即用的仪表板,可深入了解模型提示和响应、性能、使用情况和成本。 Elastic 的端到端 LLM 可观测性通过以下方法提供
- LLM API 的指标和日志摄取(通过 Elastic 集成)
- LLM 模型的 APM 追踪(通过 检测)
Elastic 的 LLM 集成现在支持最广泛采用的模型,包括 OpenAI、Azure OpenAI 以及托管在 Amazon Bedrock 和 Google Vertex AI 上的各种模型。 根据您选择的 LLM 提供商,下表显示了您可以使用哪个源以及您可以收集哪种类型的数据——日志或指标。
LLM 提供商 | 源 | 指标 | 日志 |
---|---|---|---|
Amazon Bedrock | AWS CloudWatch Logs | ✅ | ✅ |
Azure OpenAI | Azure Monitor 和事件中心 | ✅ | ✅ |
GCP Vertex AI | GCP Cloud Monitoring | ✅ | 🚧 |
OpenAI | OpenAI 使用情况 API | ✅ | 🚧 |
Elastic 为利用托管在 Amazon Bedrock、OpenAI、Azure OpenAI 和 GCP Vertex AI 上的 LLM 模型的应用程序提供专门的 OpenTelemetry 协议 (OTLP) 追踪,从而提供请求流的详细视图。 这种追踪功能捕获关键见解,包括使用的特定模型、请求持续时间、遇到的错误、每个请求的令牌消耗以及提示和响应之间的交互。 APM 追踪非常适合进行故障排除,使您能够准确且高效地找到 LLM 驱动的应用程序中出现问题的位置。
您可以使用以下 Elastic OpenTelemetry (EDOT) 分布之一来检测应用程序
EDOT 包含多种类型的 LLM 检测。 此表格列出了支持的技术。
查看这些说明,了解如何设置和收集 LLM 应用程序的 OpenTelemetry 数据。
对于优化 Azure OpenAI 驱动的客户支持系统的 SRE 团队,Elastic 的 Azure OpenAI 集成提供了关键见解。 他们可以快速识别哪些模型变体遇到更高的延迟或错误率,从而可以更明智地决定模型部署,甚至可以根据实时性能指标切换提供商。

考虑一家利用 OpenAI 模型进行实时用户交互的企业。 如果遇到无法解释的延迟,SRE 可以使用 OpenAI 追踪来剖析事务路径,确定是否有一个特定的 API 调用或模型调用是瓶颈,并监控请求以查看用户和 LLM 之间的确切提示和响应。

对于成本敏感型部署,敏锐地了解哪些 LLM 配置更具成本效益至关重要。 Elastic 的仪表板经过预配置,可以显示模型使用模式,有助于有效地减少不必要的支出。 您可以将开箱即用的仪表板用于指标、日志和追踪。

通过 Elastic Amazon Bedrock for Guardrails 集成,SRE 可以迅速解决安全问题,例如验证某些用户交互是否会提示策略违规。 Elastic 的可观测性日志清楚地表明防护措施是否正确阻止了潜在的有害响应,从而增强了合规性保证。
