Appearance
大模型与 RAG 基础
1.1 生成式 AI 与大模型发展脉络
1.1.1 人工智能发展历程
- 传统 AI(1950-2010):基于规则和统计方法的人工智能
- 机器学习时代(2010-2017):深度学习兴起,图像识别、语音识别取得突破
- 大语言模型时代(2017-至今):Transformer 架构出现,BERT、GPT 系列模型相继推出
1.1.2 生成式 AI 的崛起
- GPT-1(2018):OpenAI 发布首个生成式预训练Transformer模型
- GPT-2(2019):更大规模的模型,生成能力显著提升
- GPT-3(2020):1750亿参数,few-shot学习能力惊艳
- DALL-E(2021):文本到图像生成
- ChatGPT(2022):对话能力突破,引发全球AI热潮
- GPT-4(2023):多模态能力,逻辑推理显著提升
1.1.3 国产大模型发展
- 百度文心一言:ERNIE Bot,中文理解能力强
- 阿里通义千问:Qwen,多语言支持
- 腾讯混元大模型:Hunyuan,产业级应用
- 字节跳动豆包:Doubao,用户友好
- 智谱GLM:开源大模型,学术影响力
1.2 LLM 核心能力、适用场景与局限性
1.2.1 核心能力
- 文本生成:文章、代码、诗歌等
- 问答能力:基于训练数据回答问题
- 语言理解:理解复杂指令和上下文
- 逻辑推理:解决数学问题、逻辑谜题
- 多轮对话:保持对话连贯性
- 知识整合:整合不同领域知识
1.2.2 适用场景
- 内容创作:写作、营销文案、创意生成
- 客服支持:智能客服、问题解答
- 教育辅助:个性化学习、答疑解惑
- 代码开发:代码生成、代码解释
- 数据分析:数据总结、洞察发现
- 个人助手:日程管理、信息查询
1.2.3 局限性
- 知识时效性:训练数据有时间限制
- 事实准确性:可能产生幻觉(hallucination)
- 逻辑一致性:复杂推理可能出错
- 上下文长度:受限于上下文窗口
- 私有数据:无法访问企业内部数据
- 计算资源:部署成本高
1.3 商用大模型对比
1.3.1 闭源模型
| 模型 | 提供商 | 优势 | 劣势 | 适用场景 |
|---|---|---|---|---|
| GPT-4 | OpenAI | 能力最强,多模态 | 价格高,API限制 | 高端应用、复杂任务 |
| GPT-3.5 | OpenAI | 性价比高,响应快 | 能力有限 | 一般应用、原型开发 |
| Claude 3 | Anthropic | 上下文窗口大 | 价格较高 | 长文本处理 |
| Gemini | 多模态能力强 | 访问受限 | 综合应用 |
1.3.2 国产模型
| 模型 | 提供商 | 优势 | 劣势 | 适用场景 |
|---|---|---|---|---|
| 文心一言 | 百度 | 中文理解好,功能丰富 | 能力有待提升 | 中文场景应用 |
| 通义千问 | 阿里 | 多语言支持,产业整合 | 生态尚在建设 | 企业级应用 |
| 混元大模型 | 腾讯 | 社交场景适配 | 公开资料少 | 腾讯生态应用 |
| 豆包 | 字节跳动 | 用户友好,交互性强 | 专业能力有限 | C端应用 |
1.3.3 开源模型
| 模型 | 组织 | 优势 | 劣势 | 适用场景 |
|---|---|---|---|---|
| Llama 3 | Meta | 性能接近闭源,可商用 | 需要硬件资源 | 本地部署、定制化 |
| Mistral | Mistral AI | 小参数量,高性能 | 功能相对有限 | 边缘设备、实时应用 |
| Qwen | 阿里 | 中文支持好,多尺寸 | 部署复杂度 | 中文场景、本地应用 |
| GLM | 智谱AI | 开源生态好,学术支持 | 性能略逊 | 研究、教育应用 |
1.4 本地大模型与 API 大模型选型逻辑
1.4.1 选型考虑因素
- 成本预算:API调用费用 vs 硬件部署成本
- 数据隐私:敏感数据是否允许外部传输
- 响应速度:实时性要求
- 定制需求:是否需要模型微调
- 部署环境:云服务器 vs 本地服务器
- 监管合规:行业合规要求
1.4.2 适用场景推荐
| 场景 | 推荐方案 | 理由 |
|---|---|---|
| 企业内部知识库 | 本地开源模型 | 数据安全,可控性高 |
| 客户服务 | API模型 | 快速部署,维护简单 |
| 边缘设备 | 轻量开源模型 | 低延迟,离线运行 |
| 科研教育 | 开源模型 | 可研究,可定制 |
| 大规模应用 | 混合方案 | 平衡成本与性能 |
1.5 RAG 技术原理与价值
1.5.1 什么是 RAG?
RAG(Retrieval-Augmented Generation) 是一种结合检索和生成的技术,通过在生成回答前检索相关文档,为大模型提供外部知识,从而提高回答的准确性和时效性。
1.5.2 为什么必须用 RAG?
- 解决知识时效性问题:实时检索最新信息
- 解决幻觉问题:基于真实文档生成回答
- 解决私有数据问题:访问企业内部知识库
- 降低模型训练成本:无需频繁微调模型
- 提高回答可信度:可追溯回答来源
1.5.3 RAG vs Fine-tuning
| 维度 | RAG | Fine-tuning |
|---|---|---|
| 知识更新 | 实时更新 | 需要重新训练 |
| 数据隐私 | 数据不进入模型 | 数据成为模型一部分 |
| 成本 | 低(无需训练) | 高(训练成本) |
| 适用场景 | 知识密集型任务 | 特定领域专精 |
| 实现复杂度 | 中等 | 高 |
1.5.4 RAG 解决的核心问题
- 幻觉(Hallucination):模型生成不存在的信息
- 时效性:模型知识截止到训练数据时间
- 私有数据:模型无法访问企业内部信息
- 领域专业知识:通用模型在专业领域表现有限
- 合规性:确保回答符合行业法规
1.6 企业知识库 RAG 典型架构
1.6.1 基础架构
mermaid
flowchart TD
A[用户查询] --> B[查询处理]
B --> C[检索模块]
C --> D[向量数据库]
D --> E[文档处理]
E --> F[原始文档]
C --> G[检索结果]
G --> H[上下文构建]
H --> I[大模型]
I --> J[生成回答]
J --> K[结果返回]1.6.2 核心组件
- 文档处理:清洗、分块、向量化
- 向量数据库:存储和检索向量
- 检索模块:根据查询检索相关文档
- 上下文构建:将检索结果组织为模型输入
- 大模型:基于上下文生成回答
- 评估模块:评估回答质量
1.6.3 数据流
- 离线流程:文档收集 → 预处理 → 分块 → 向量化 → 存储到向量数据库
- 在线流程:用户查询 → 向量化 → 相似度检索 → 构建上下文 → 模型生成 → 返回结果
1.6.4 架构优化方向
- 多模态支持:处理图片、表格等非文本内容
- 混合检索:结合关键词和向量检索
- 重排机制:优化检索结果排序
- 缓存策略:提高热门查询响应速度
- 监控系统:跟踪系统性能和质量
1.7 本章小结
- 了解了大模型的发展脉络和核心能力
- 掌握了不同类型大模型的特点和适用场景
- 理解了 RAG 技术的原理和价值
- 熟悉了企业知识库 RAG 的典型架构
这些基础知识将为后续的实战开发打下坚实的基础。在接下来的章节中,我们将逐步深入 RAG 技术的各个组件,从环境搭建到系统部署,全面掌握企业私有知识库的落地能力。
