我们最近宣布 Azure OpenAI 集成正式发布 (GA)。您可以在我们之前的博客 LLM 可观测性:Azure OpenAI 中找到详细信息。
此后,我们为 Azure OpenAI GA 包添加了更多功能,现在可以提供提示和响应监控、PTU 部署性能跟踪以及计费洞察。请继续阅读以了解更多信息!
高级日志记录和监控
集成的初始 GA 版本主要侧重于原生日志,通过使用认知服务日志记录来跟踪服务的遥测数据。此版本的 Azure OpenAI 集成允许您处理高级日志,从而更全面地了解 OpenAI 资源的使用情况。
要实现此目的,您必须在 Azure 中设置 API 管理服务。API 管理服务是一个集中位置,您可以在其中放置所有 OpenAI 服务端点,以端到端地管理所有这些端点。启用 API 管理服务并配置 Azure 事件中心以流式传输日志。
要了解有关设置 API 管理服务以访问 Azure OpenAI 的更多信息,请参阅 Azure 文档。
通过使用高级日志记录,您可以收集以下日志数据
- 请求输入文本
- 响应输出文本
- 内容筛选器结果
- 使用情况信息
- 输入提示标记
- 输出完成标记
- 总标记数
Azure OpenAI 集成现在收集 API 管理网关日志。当用户的问题发送到 API 管理时,它会记录来自 GPT 模型的问题和响应。
以下是示例日志的样子,
内容筛选结果
Azure OpenAI 的内容筛选系统会检测并处理输入提示和输出完成中特定类别的潜在有害内容。通过 Azure OpenAI 模型部署,您可以使用默认内容筛选器或创建您自己的内容筛选器。
现在,集成收集内容筛选结果日志。在此示例中,让我们在 Azure OpenAI Studio 中创建一个自定义筛选器,以生成错误日志。
通过利用 Azure 内容筛选器,您可以创建自己的术语或短语自定义列表来阻止或标记。
并且在 Elastic 中摄取的文档将如下所示此屏幕截图提供了对内容筛选的请求的见解。
PTU 部署监控
预配吞吐量单位 (PTU) 是您可以预留并部署的模型处理容量单位,用于处理提示和生成完成。
PTU 部署的精选仪表板可全面了解请求延迟、活动标记使用情况、PTU 利用率和微调活动等指标,从而快速了解部署的运行状况和性能。
以下是默认捕获的基本 PTU 指标
- 响应时间:用户发送提示后第一次出现响应所用的时间。
- 活动标记:使用此指标来了解您的 PTU 的 TPS 或 TPM 基于利用率,并与目标 TPS 或 TPM 情景的基准进行比较。
- 预配管理利用率 V2:提供对利用率百分比的见解,有助于防止过度使用并确保高效的资源分配。
- 提示标记缓存匹配率:以百分比表示的提示标记缓存命中率。
使用计费进行成本计算
现在,使用精选的概览仪表板,您可以监控 AI 应用程序的实际使用成本。您距离处理计费信息仅一步之遥。
您需要配置并安装 Azure 计费指标集成。安装完成后,Azure OpenAI 概览仪表板中将可视化认知服务的使用成本。
立即试用
在我们的 Elasticsearch Service 上部署集群或下载堆栈,启动新的 Azure OpenAI 集成,在 Kibana 中打开精选的仪表板,并开始监控您的 Azure OpenAI 服务!