优化模型上下文

编辑

此功能为技术预览版,可能会在未来的版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版的功能不受官方 GA 功能的支持 SLA 的约束。

上下文是指您提供给 LLM 的信息,用于优化查询结果的相关性。如果没有额外的上下文,LLM 将仅根据其训练数据生成结果。在 Playground 中,此额外上下文是您 Elasticsearch 索引中包含的信息。

有几种方法可以优化此上下文以获得更好的结果。一些调整可以直接在 Playground UI 中进行。其他调整需要改进您的索引策略,并可能需要重新索引您的数据。

目前,您只能选择 一个字段 作为 LLM 的上下文。

在 UI 中编辑上下文

编辑

使用 Playground UI 中的 编辑上下文 按钮来调整发送到 LLM 的文档和字段数量。

如果您遇到了上下文长度限制,请尝试以下方法:

  • 限制检索的文档数量
  • 选择一个具有较少 token 的字段,以减少上下文长度

其他上下文优化

编辑

本节介绍您无法直接在 UI 中进行的其他上下文优化。

分块大型文档

编辑

如果您正在处理大型字段,您可能需要调整您的索引策略。考虑将您的文档分解为较小的块,例如句子或段落。

如果您还没有分块策略,请从将文档分块为段落开始。

否则,请考虑更新您的分块策略,例如从基于句子的分块更新为基于段落的分块。

请参考以下 Python Notebook,了解如何对文档进行分块的示例

平衡成本/延迟和结果质量

编辑

以下是一些关于如何平衡不同上下文大小的成本/延迟和结果质量的一般建议:

优化上下文长度
通过实证测试确定最佳上下文长度。从基线开始,逐步调整以找到平衡点,从而优化响应质量和系统性能。
为 ELSER 模型实施 token 剪枝

如果您正在使用我们的 ELSER 模型,请考虑实施 token 剪枝以减少发送到模型的 token 数量。请参考以下相关博客文章:

监控和调整
持续监控上下文大小更改对性能的影响,并根据需要进行调整。