Skip to content

大模型与 RAG 基础

1.1 生成式 AI 与大模型发展脉络

1.1.1 人工智能发展历程

  • 传统 AI(1950-2010):基于规则和统计方法的人工智能
  • 机器学习时代(2010-2017):深度学习兴起,图像识别、语音识别取得突破
  • 大语言模型时代(2017-至今):Transformer 架构出现,BERT、GPT 系列模型相继推出

1.1.2 生成式 AI 的崛起

  • GPT-1(2018):OpenAI 发布首个生成式预训练Transformer模型
  • GPT-2(2019):更大规模的模型,生成能力显著提升
  • GPT-3(2020):1750亿参数,few-shot学习能力惊艳
  • DALL-E(2021):文本到图像生成
  • ChatGPT(2022):对话能力突破,引发全球AI热潮
  • GPT-4(2023):多模态能力,逻辑推理显著提升

1.1.3 国产大模型发展

  • 百度文心一言:ERNIE Bot,中文理解能力强
  • 阿里通义千问:Qwen,多语言支持
  • 腾讯混元大模型:Hunyuan,产业级应用
  • 字节跳动豆包:Doubao,用户友好
  • 智谱GLM:开源大模型,学术影响力

1.2 LLM 核心能力、适用场景与局限性

1.2.1 核心能力

  • 文本生成:文章、代码、诗歌等
  • 问答能力:基于训练数据回答问题
  • 语言理解:理解复杂指令和上下文
  • 逻辑推理:解决数学问题、逻辑谜题
  • 多轮对话:保持对话连贯性
  • 知识整合:整合不同领域知识

1.2.2 适用场景

  • 内容创作:写作、营销文案、创意生成
  • 客服支持:智能客服、问题解答
  • 教育辅助:个性化学习、答疑解惑
  • 代码开发:代码生成、代码解释
  • 数据分析:数据总结、洞察发现
  • 个人助手:日程管理、信息查询

1.2.3 局限性

  • 知识时效性:训练数据有时间限制
  • 事实准确性:可能产生幻觉(hallucination)
  • 逻辑一致性:复杂推理可能出错
  • 上下文长度:受限于上下文窗口
  • 私有数据:无法访问企业内部数据
  • 计算资源:部署成本高

1.3 商用大模型对比

1.3.1 闭源模型

模型提供商优势劣势适用场景
GPT-4OpenAI能力最强,多模态价格高,API限制高端应用、复杂任务
GPT-3.5OpenAI性价比高,响应快能力有限一般应用、原型开发
Claude 3Anthropic上下文窗口大价格较高长文本处理
GeminiGoogle多模态能力强访问受限综合应用

1.3.2 国产模型

模型提供商优势劣势适用场景
文心一言百度中文理解好,功能丰富能力有待提升中文场景应用
通义千问阿里多语言支持,产业整合生态尚在建设企业级应用
混元大模型腾讯社交场景适配公开资料少腾讯生态应用
豆包字节跳动用户友好,交互性强专业能力有限C端应用

1.3.3 开源模型

模型组织优势劣势适用场景
Llama 3Meta性能接近闭源,可商用需要硬件资源本地部署、定制化
MistralMistral AI小参数量,高性能功能相对有限边缘设备、实时应用
Qwen阿里中文支持好,多尺寸部署复杂度中文场景、本地应用
GLM智谱AI开源生态好,学术支持性能略逊研究、教育应用

1.4 本地大模型与 API 大模型选型逻辑

1.4.1 选型考虑因素

  • 成本预算:API调用费用 vs 硬件部署成本
  • 数据隐私:敏感数据是否允许外部传输
  • 响应速度:实时性要求
  • 定制需求:是否需要模型微调
  • 部署环境:云服务器 vs 本地服务器
  • 监管合规:行业合规要求

1.4.2 适用场景推荐

场景推荐方案理由
企业内部知识库本地开源模型数据安全,可控性高
客户服务API模型快速部署,维护简单
边缘设备轻量开源模型低延迟,离线运行
科研教育开源模型可研究,可定制
大规模应用混合方案平衡成本与性能

1.5 RAG 技术原理与价值

1.5.1 什么是 RAG?

RAG(Retrieval-Augmented Generation) 是一种结合检索和生成的技术,通过在生成回答前检索相关文档,为大模型提供外部知识,从而提高回答的准确性和时效性。

1.5.2 为什么必须用 RAG?

  • 解决知识时效性问题:实时检索最新信息
  • 解决幻觉问题:基于真实文档生成回答
  • 解决私有数据问题:访问企业内部知识库
  • 降低模型训练成本:无需频繁微调模型
  • 提高回答可信度:可追溯回答来源

1.5.3 RAG vs Fine-tuning

维度RAGFine-tuning
知识更新实时更新需要重新训练
数据隐私数据不进入模型数据成为模型一部分
成本低(无需训练)高(训练成本)
适用场景知识密集型任务特定领域专精
实现复杂度中等

1.5.4 RAG 解决的核心问题

  1. 幻觉(Hallucination):模型生成不存在的信息
  2. 时效性:模型知识截止到训练数据时间
  3. 私有数据:模型无法访问企业内部信息
  4. 领域专业知识:通用模型在专业领域表现有限
  5. 合规性:确保回答符合行业法规

1.6 企业知识库 RAG 典型架构

1.6.1 基础架构

mermaid
flowchart TD
    A[用户查询] --> B[查询处理]
    B --> C[检索模块]
    C --> D[向量数据库]
    D --> E[文档处理]
    E --> F[原始文档]
    C --> G[检索结果]
    G --> H[上下文构建]
    H --> I[大模型]
    I --> J[生成回答]
    J --> K[结果返回]

1.6.2 核心组件

  1. 文档处理:清洗、分块、向量化
  2. 向量数据库:存储和检索向量
  3. 检索模块:根据查询检索相关文档
  4. 上下文构建:将检索结果组织为模型输入
  5. 大模型:基于上下文生成回答
  6. 评估模块:评估回答质量

1.6.3 数据流

  1. 离线流程:文档收集 → 预处理 → 分块 → 向量化 → 存储到向量数据库
  2. 在线流程:用户查询 → 向量化 → 相似度检索 → 构建上下文 → 模型生成 → 返回结果

1.6.4 架构优化方向

  • 多模态支持:处理图片、表格等非文本内容
  • 混合检索:结合关键词和向量检索
  • 重排机制:优化检索结果排序
  • 缓存策略:提高热门查询响应速度
  • 监控系统:跟踪系统性能和质量

1.7 本章小结

  • 了解了大模型的发展脉络和核心能力
  • 掌握了不同类型大模型的特点和适用场景
  • 理解了 RAG 技术的原理和价值
  • 熟悉了企业知识库 RAG 的典型架构

这些基础知识将为后续的实战开发打下坚实的基础。在接下来的章节中,我们将逐步深入 RAG 技术的各个组件,从环境搭建到系统部署,全面掌握企业私有知识库的落地能力。