Skip to content

高级 RAG 技术

11.1 多轮对话 RAG(上下文管理)

多轮对话 RAG 通过维护对话历史,使系统能够理解上下文,提供更连贯的回答。

实现要点:

  • 对话历史存储:保存用户和系统的对话记录
  • 上下文窗口管理:控制对话历史的长度
  • 上下文压缩:对长对话进行压缩处理
  • 上下文注入:将对话历史注入到 Prompt 中

11.2 混合检索(关键词 + 向量)

混合检索结合了关键词检索和向量检索的优势,提高检索的准确性和覆盖率。

实现要点:

  • 关键词检索:使用 BM25、TF-IDF 等算法
  • 向量检索:使用 Embedding 相似度
  • 结果融合:将两种检索结果进行融合排序
  • 权重调整:根据场景调整两种检索的权重

11.3 重排模型(Rerank)接入

重排模型对初步检索结果进行重新排序,提高最终结果的准确性。

实现要点:

  • 重排模型选择:Cross-Encoder、ColBERT 等
  • 重排流程:先召回再重排
  • 性能优化:平衡准确性和速度
  • 模型微调:针对特定领域微调重排模型

11.4 路由 RAG、父子分块、假设性问题检索(HyDE)

路由 RAG

根据查询类型自动选择不同的检索策略。

父子分块

将文档分为父块和子块,父块用于检索,子块用于生成。

假设性问题检索(HyDE)

使用大模型生成假设性回答,再用回答进行检索。

11.5 本章小结

  • 学习了多轮对话 RAG 的上下文管理
  • 掌握了混合检索的实现方法
  • 了解了重排模型的接入方式
  • 熟悉了路由 RAG、父子分块、HyDE 等高级技术