New

The executive guide to generative AI

Read more

优化模型上下文

编辑

此功能为技术预览版,可能会在未来的版本中更改或删除。Elastic 将努力修复任何问题,但技术预览版的功能不受官方 GA 功能的支持 SLA 的约束。

上下文是指您提供给 LLM 的信息,用于优化查询结果的相关性。如果没有额外的上下文,LLM 将仅根据其训练数据生成结果。在 Playground 中,此额外上下文是您 Elasticsearch 索引中包含的信息。

有几种方法可以优化此上下文以获得更好的结果。一些调整可以直接在 Playground UI 中进行。其他调整需要改进您的索引策略,并可能需要重新索引您的数据。

目前,您只能选择 一个字段 作为 LLM 的上下文。

在 UI 中编辑上下文

编辑

使用 Playground UI 中的 编辑上下文 按钮来调整发送到 LLM 的文档和字段数量。

如果您遇到了上下文长度限制,请尝试以下方法:

  • 限制检索的文档数量
  • 选择一个具有较少 token 的字段,以减少上下文长度

其他上下文优化

编辑

本节介绍您无法直接在 UI 中进行的其他上下文优化。

分块大型文档

编辑

如果您正在处理大型字段,您可能需要调整您的索引策略。考虑将您的文档分解为较小的块,例如句子或段落。

如果您还没有分块策略,请从将文档分块为段落开始。

否则,请考虑更新您的分块策略,例如从基于句子的分块更新为基于段落的分块。

请参考以下 Python Notebook,了解如何对文档进行分块的示例

平衡成本/延迟和结果质量

编辑

以下是一些关于如何平衡不同上下文大小的成本/延迟和结果质量的一般建议:

优化上下文长度
通过实证测试确定最佳上下文长度。从基线开始,逐步调整以找到平衡点,从而优化响应质量和系统性能。
为 ELSER 模型实施 token 剪枝

如果您正在使用我们的 ELSER 模型,请考虑实施 token 剪枝以减少发送到模型的 token 数量。请参考以下相关博客文章:

监控和调整
持续监控上下文大小更改对性能的影响,并根据需要进行调整。