LLM 可观测性:Azure OpenAI

我们很高兴地宣布 Azure OpenAI 集成的正式可用,它提供了对 Azure OpenAI 服务的性能和使用情况的全面可观测性!

阅读时间:2分钟
LLM Observability: Azure OpenAI

我们很高兴地宣布Azure OpenAI 集成的正式可用,它提供了对Azure OpenAI 服务的性能和使用情况的全面可观测性!还可以查看本博文的第 2 部分

虽然我们已经提供了一段时间对 LLM 环境的可见性,但添加了我们的 Azure OpenAI 集成可以更全面地了解基于 Azure OpenAI 的应用程序的性能和使用情况,从而进一步增强 LLM 可观测性。

Azure OpenAI 集成利用Elastic Agent的 Azure 集成功能来收集日志(使用Azure 事件中心)和指标(使用Azure Monitor),从而提供对Azure OpenAI 服务使用情况的深入可见性。

该集成包括一个开箱即用的仪表板,总结了服务使用情况的最相关方面,包括请求和错误率、令牌使用情况和聊天完成延迟。

创建警报和 SLO 以监控 Azure OpenAI

与所有其他 Elastic 集成一样,所有日志指标信息都可以在Elastic 可观测性的每个功能中使用,包括SLO警报、自定义仪表板、深入的日志探索等。

例如,要创建警报以监控令牌使用情况,请从 Azure OpenAI 数据流上的自定义阈值规则开始,并设置聚合条件以跟踪和报告超过特定阈值的令牌使用情况违规。

发生违规时,该警报通知中链接的警报详细信息视图提供了围绕违规的丰富上下文,例如违规开始时间、当前状态以及此类违规的任何先前历史记录,从而能够快速进行分类、调查和根本原因分析。

同样,要创建 SLO 以监控 Azure OpenAI 调用中的错误率,请从自定义查询 SLI 定义开始,将任何结果签名在 400 或更高版本上的任何结果添加到良好事件中,总值包括所有响应。然后,通过设置适当的 SLO 目标(例如 99%),开始在 7 天、30 天或 90 天的时间段内监控 Azure OpenAI 错误率 SLO,以跟踪性能下降并在其成为普遍问题之前采取措施。

请参阅用户指南以了解更多信息并开始使用!

分享此文章