优化模型上下文
编辑优化模型上下文
编辑此功能为技术预览版,可能会在未来的版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版的功能不受官方 GA 功能的支持 SLA 的约束。
上下文是指您提供给 LLM 的信息,用于优化查询结果的相关性。如果没有额外的上下文,LLM 将仅根据其训练数据生成结果。在 Playground 中,此额外上下文是您 Elasticsearch 索引中包含的信息。
有几种方法可以优化此上下文以获得更好的结果。一些调整可以直接在 Playground UI 中进行。其他调整需要改进您的索引策略,并可能需要重新索引您的数据。
目前,您只能选择 一个字段 作为 LLM 的上下文。
在 UI 中编辑上下文
编辑使用 Playground UI 中的 编辑上下文 按钮来调整发送到 LLM 的文档和字段数量。
如果您遇到了上下文长度限制,请尝试以下方法:
- 限制检索的文档数量
- 选择一个具有较少 token 的字段,以减少上下文长度
其他上下文优化
编辑本节介绍您无法直接在 UI 中进行的其他上下文优化。
分块大型文档
编辑如果您正在处理大型字段,您可能需要调整您的索引策略。考虑将您的文档分解为较小的块,例如句子或段落。
如果您还没有分块策略,请从将文档分块为段落开始。
否则,请考虑更新您的分块策略,例如从基于句子的分块更新为基于段落的分块。
请参考以下 Python Notebook,了解如何对文档进行分块的示例
平衡成本/延迟和结果质量
编辑以下是一些关于如何平衡不同上下文大小的成本/延迟和结果质量的一般建议:
- 优化上下文长度
- 通过实证测试确定最佳上下文长度。从基线开始,逐步调整以找到平衡点,从而优化响应质量和系统性能。
- 为 ELSER 模型实施 token 剪枝
-
如果您正在使用我们的 ELSER 模型,请考虑实施 token 剪枝以减少发送到模型的 token 数量。请参考以下相关博客文章:
- 监控和调整
- 持续监控上下文大小更改对性能的影响,并根据需要进行调整。