大模型与 RAG 基础

1.1 生成式 AI 与大模型发展脉络

1.1.1 人工智能发展历程

传统 AI（1950-2010）：基于规则和统计方法的人工智能
机器学习时代（2010-2017）：深度学习兴起，图像识别、语音识别取得突破
大语言模型时代（2017-至今）：Transformer 架构出现，BERT、GPT 系列模型相继推出

1.1.2 生成式 AI 的崛起

GPT-1（2018）：OpenAI 发布首个生成式预训练Transformer模型
GPT-2（2019）：更大规模的模型，生成能力显著提升
GPT-3（2020）：1750亿参数，few-shot学习能力惊艳
DALL-E（2021）：文本到图像生成
ChatGPT（2022）：对话能力突破，引发全球AI热潮
GPT-4（2023）：多模态能力，逻辑推理显著提升

1.1.3 国产大模型发展

百度文心一言：ERNIE Bot，中文理解能力强
阿里通义千问：Qwen，多语言支持
腾讯混元大模型：Hunyuan，产业级应用
字节跳动豆包：Doubao，用户友好
智谱GLM：开源大模型，学术影响力

1.2 LLM 核心能力、适用场景与局限性

1.2.1 核心能力

文本生成：文章、代码、诗歌等
问答能力：基于训练数据回答问题
语言理解：理解复杂指令和上下文
逻辑推理：解决数学问题、逻辑谜题
多轮对话：保持对话连贯性
知识整合：整合不同领域知识

1.2.2 适用场景

内容创作：写作、营销文案、创意生成
客服支持：智能客服、问题解答
教育辅助：个性化学习、答疑解惑
代码开发：代码生成、代码解释
数据分析：数据总结、洞察发现
个人助手：日程管理、信息查询

1.2.3 局限性

知识时效性：训练数据有时间限制
事实准确性：可能产生幻觉（hallucination）
逻辑一致性：复杂推理可能出错
上下文长度：受限于上下文窗口
私有数据：无法访问企业内部数据
计算资源：部署成本高

1.3 商用大模型对比

1.3.1 闭源模型

模型	提供商	优势	劣势	适用场景
GPT-4	OpenAI	能力最强，多模态	价格高，API限制	高端应用、复杂任务
GPT-3.5	OpenAI	性价比高，响应快	能力有限	一般应用、原型开发
Claude 3	Anthropic	上下文窗口大	价格较高	长文本处理
Gemini	Google	多模态能力强	访问受限	综合应用

1.3.2 国产模型

模型	提供商	优势	劣势	适用场景
文心一言	百度	中文理解好，功能丰富	能力有待提升	中文场景应用
通义千问	阿里	多语言支持，产业整合	生态尚在建设	企业级应用
混元大模型	腾讯	社交场景适配	公开资料少	腾讯生态应用
豆包	字节跳动	用户友好，交互性强	专业能力有限	C端应用

1.3.3 开源模型

模型	组织	优势	劣势	适用场景
Llama 3	Meta	性能接近闭源，可商用	需要硬件资源	本地部署、定制化
Mistral	Mistral AI	小参数量，高性能	功能相对有限	边缘设备、实时应用
Qwen	阿里	中文支持好，多尺寸	部署复杂度	中文场景、本地应用
GLM	智谱AI	开源生态好，学术支持	性能略逊	研究、教育应用

1.4 本地大模型与 API 大模型选型逻辑

1.4.1 选型考虑因素

成本预算：API调用费用 vs 硬件部署成本
数据隐私：敏感数据是否允许外部传输
响应速度：实时性要求
定制需求：是否需要模型微调
部署环境：云服务器 vs 本地服务器
监管合规：行业合规要求

1.4.2 适用场景推荐

场景	推荐方案	理由
企业内部知识库	本地开源模型	数据安全，可控性高
客户服务	API模型	快速部署，维护简单
边缘设备	轻量开源模型	低延迟，离线运行
科研教育	开源模型	可研究，可定制
大规模应用	混合方案	平衡成本与性能

1.5 RAG 技术原理与价值

1.5.1 什么是 RAG？

RAG（Retrieval-Augmented Generation） 是一种结合检索和生成的技术，通过在生成回答前检索相关文档，为大模型提供外部知识，从而提高回答的准确性和时效性。

1.5.2 为什么必须用 RAG？

解决知识时效性问题：实时检索最新信息
解决幻觉问题：基于真实文档生成回答
解决私有数据问题：访问企业内部知识库
降低模型训练成本：无需频繁微调模型
提高回答可信度：可追溯回答来源

1.5.3 RAG vs Fine-tuning

维度	RAG	Fine-tuning
知识更新	实时更新	需要重新训练
数据隐私	数据不进入模型	数据成为模型一部分
成本	低（无需训练）	高（训练成本）
适用场景	知识密集型任务	特定领域专精
实现复杂度	中等	高

1.5.4 RAG 解决的核心问题

幻觉（Hallucination）：模型生成不存在的信息
时效性：模型知识截止到训练数据时间
私有数据：模型无法访问企业内部信息
领域专业知识：通用模型在专业领域表现有限
合规性：确保回答符合行业法规

1.6 企业知识库 RAG 典型架构

1.6.1 基础架构

mermaid

flowchart TD
    A[用户查询] --> B[查询处理]
    B --> C[检索模块]
    C --> D[向量数据库]
    D --> E[文档处理]
    E --> F[原始文档]
    C --> G[检索结果]
    G --> H[上下文构建]
    H --> I[大模型]
    I --> J[生成回答]
    J --> K[结果返回]

1.6.2 核心组件

文档处理：清洗、分块、向量化
向量数据库：存储和检索向量
检索模块：根据查询检索相关文档
上下文构建：将检索结果组织为模型输入
大模型：基于上下文生成回答
评估模块：评估回答质量

1.6.3 数据流

离线流程：文档收集 → 预处理 → 分块 → 向量化 → 存储到向量数据库
在线流程：用户查询 → 向量化 → 相似度检索 → 构建上下文 → 模型生成 → 返回结果

1.6.4 架构优化方向

多模态支持：处理图片、表格等非文本内容
混合检索：结合关键词和向量检索
重排机制：优化检索结果排序
缓存策略：提高热门查询响应速度
监控系统：跟踪系统性能和质量

1.7 本章小结

了解了大模型的发展脉络和核心能力
掌握了不同类型大模型的特点和适用场景
理解了 RAG 技术的原理和价值
熟悉了企业知识库 RAG 的典型架构

这些基础知识将为后续的实战开发打下坚实的基础。在接下来的章节中，我们将逐步深入 RAG 技术的各个组件，从环境搭建到系统部署，全面掌握企业私有知识库的落地能力。

大模型与 RAG 基础 ​

1.1 生成式 AI 与大模型发展脉络 ​

1.1.1 人工智能发展历程 ​

1.1.2 生成式 AI 的崛起 ​

1.1.3 国产大模型发展 ​

1.2 LLM 核心能力、适用场景与局限性 ​

1.2.1 核心能力 ​

1.2.2 适用场景 ​

1.2.3 局限性 ​

1.3 商用大模型对比 ​

1.3.1 闭源模型 ​

1.3.2 国产模型 ​

1.3.3 开源模型 ​

1.4 本地大模型与 API 大模型选型逻辑 ​

1.4.1 选型考虑因素 ​

1.4.2 适用场景推荐 ​

1.5 RAG 技术原理与价值 ​

1.5.1 什么是 RAG？ ​

1.5.2 为什么必须用 RAG？ ​

1.5.3 RAG vs Fine-tuning ​

1.5.4 RAG 解决的核心问题 ​

1.6 企业知识库 RAG 典型架构 ​

1.6.1 基础架构 ​

1.6.2 核心组件 ​

1.6.3 数据流 ​

1.6.4 架构优化方向 ​

1.7 本章小结 ​

大模型与 RAG 基础

1.1 生成式 AI 与大模型发展脉络

1.1.1 人工智能发展历程

1.1.2 生成式 AI 的崛起

1.1.3 国产大模型发展

1.2 LLM 核心能力、适用场景与局限性

1.2.1 核心能力

1.2.2 适用场景

1.2.3 局限性

1.3 商用大模型对比

1.3.1 闭源模型

1.3.2 国产模型

1.3.3 开源模型

1.4 本地大模型与 API 大模型选型逻辑

1.4.1 选型考虑因素

1.4.2 适用场景推荐

1.5 RAG 技术原理与价值

1.5.1 什么是 RAG？

1.5.2 为什么必须用 RAG？

1.5.3 RAG vs Fine-tuning

1.5.4 RAG 解决的核心问题

1.6 企业知识库 RAG 典型架构

1.6.1 基础架构

1.6.2 核心组件

1.6.3 数据流

1.6.4 架构优化方向

1.7 本章小结