高级 RAG 技术

11.1 多轮对话 RAG（上下文管理）

多轮对话 RAG 通过维护对话历史，使系统能够理解上下文，提供更连贯的回答。

实现要点：

对话历史存储：保存用户和系统的对话记录
上下文窗口管理：控制对话历史的长度
上下文压缩：对长对话进行压缩处理
上下文注入：将对话历史注入到 Prompt 中

11.2 混合检索（关键词 + 向量）

混合检索结合了关键词检索和向量检索的优势，提高检索的准确性和覆盖率。

实现要点：

关键词检索：使用 BM25、TF-IDF 等算法
向量检索：使用 Embedding 相似度
结果融合：将两种检索结果进行融合排序
权重调整：根据场景调整两种检索的权重

11.3 重排模型（Rerank）接入

重排模型对初步检索结果进行重新排序，提高最终结果的准确性。

实现要点：

重排模型选择：Cross-Encoder、ColBERT 等
重排流程：先召回再重排
性能优化：平衡准确性和速度
模型微调：针对特定领域微调重排模型

11.4 路由 RAG、父子分块、假设性问题检索（HyDE）

路由 RAG

根据查询类型自动选择不同的检索策略。

父子分块

将文档分为父块和子块，父块用于检索，子块用于生成。

假设性问题检索（HyDE）

使用大模型生成假设性回答，再用回答进行检索。

11.5 本章小结

学习了多轮对话 RAG 的上下文管理
掌握了混合检索的实现方法
了解了重排模型的接入方式
熟悉了路由 RAG、父子分块、HyDE 等高级技术