正在加载

优化模型上下文

Elastic Stack Serverless

警告

此功能处于技术预览阶段,可能会在将来的版本中更改或删除。 Elastic 将努力解决任何问题,但技术预览版的功能不受官方 GA 功能的支持 SLA 约束。

上下文是您提供给 LLM 的信息,用于优化查询结果的相关性。如果没有其他上下文,LLM 将仅根据其训练数据生成结果。在 Playground 中,此附加上下文包含在您的 Elasticsearch 索引中。

有几种方法可以优化此上下文以获得更好的结果。 某些调整可以直接在 Playground UI 中进行。 其他调整需要优化您的索引策略,并可能需要重新索引您的数据。

注意

目前您只能选择一个字段作为 LLM 的上下文。

使用 Playground UI 中的编辑上下文按钮来调整发送到 LLM 的文档数量和字段。

如果您遇到上下文长度限制,请尝试以下操作

  • 限制检索的文档数量
  • 选择一个包含较少 Token 的字段,以减少上下文长度

本节介绍您无法直接在 UI 中进行的其他上下文优化。

如果您正在处理大型字段,则可能需要调整索引策略。 考虑将您的文档分成更小的块,例如句子或段落。

如果您还没有分块策略,请首先将您的文档分块为段落。

否则,请考虑更新您的分块策略,例如,从基于句子的分块更新为基于段落的分块。

有关如何分块文档的示例,请参阅以下 Python 笔记本

以下是一些关于在不同上下文大小下平衡成本/延迟和结果质量的一般建议

优化上下文长度
通过经验测试确定最佳上下文长度。 从基线开始并逐步调整,以找到优化响应质量和系统性能之间的平衡。
为 ELSER 模型实现 Token 修剪

如果您使用的是我们的 ELSER 模型,请考虑实现 Token 修剪以减少发送到模型的 Token 数量。 请参阅以下相关博客文章

监控和调整

持续监控上下文大小变化对性能的影响,并根据需要进行调整。

© . All rights reserved.