Appearance
模块1:大语言模型基础(8天)
模块概述
本模块将带你深入了解大语言模型(LLM)的核心原理、主流架构、API开发、Prompt工程和模型评估,为后续学习打下坚实基础。
学习目标
- 理解LLM的核心原理和架构
- 掌握主流LLM的特点和差异
- 能够开发LLM应用
- 掌握Prompt Engineering技巧
- 能够评估和选择合适的LLM
课程安排
第11天:LLM原理与架构
学习目标:
- 理解Transformer架构的核心原理
- 掌握Self-Attention机制的实现
- 了解位置编码的作用和类型
- 能够从零实现Self-Attention
核心内容:
- Transformer架构概述
- Self-Attention机制
- Multi-Head Attention
- 位置编码(正弦、可学习、相对)
- 前馈神经网络
- 完整的Transformer层
实践任务:
- 从零实现Self-Attention模块
- 实现Multi-Head Attention
- 实现位置编码
- 测试注意力机制
预计时长:3-5小时
第12天:主流LLM架构对比
学习目标:
- 理解主流LLM架构的差异
- 掌握GPT、BERT、T5、LLaMA、PaLM、Gemini的核心特点
- 对比不同模型的优缺点
- 能够选择合适的模型
核心内容:
- GPT系列(Decoder-only)
- BERT系列(Encoder-only)
- T5系列(Encoder-Decoder)
- LLaMA系列(开源优化)
- PaLM系列(MoE架构)
- Gemini系列(多模态)
实践任务:
- 调用不同模型API
- 对比输出结果
- 分析差异
预计时长:3-5小时
第13天:国内大模型详解
学习目标:
- 了解国内主流大模型
- 掌握文心一言、通义千问、混元、豆包、GLM、Kimi、DeepSeek、Yi的特点
- 对比国内大模型的差异
- 能够调用国内大模型API
核心内容:
- 文心一言(百度)- 知识增强
- 通义千问(阿里)- 多尺寸模型
- 混元(腾讯)- 多模态
- 豆包(字节跳动)- 对话优化
- GLM(智谱AI)- 自研架构
- Kimi(月之暗面)- 超长上下文
- DeepSeek(深度求索)- MoE架构
- Yi(零一万物)- 开源友好
实践任务:
- 调用5个国内模型API
- 对比输出结果
- 分析性能差异
预计时长:3-5小时
第14天:国外大模型详解
学习目标:
- 了解国外主流大模型
- 掌握GPT、Claude、Gemini、Llama、Mistral的特点
- 对比国外大模型的差异
- 能够调用国外大模型API
核心内容:
- GPT系列(OpenAI)- 生成能力强
- Claude系列(Anthropic)- 安全性强
- Gemini系列(Google)- 多模态
- Llama系列(Meta)- 完全开源
- Mistral系列(Mistral AI)- 高效
实践任务:
- 调用3个国外模型API
- 对比输出结果
- 分析性能差异
预计时长:3-5小时
第15天:LLM API开发实战
学习目标:
- 掌握LLM API的封装方法
- 实现流式输出
- 实现Function Calling
- 开发LLM API封装库
核心内容:
- LLM API基础
- 流式输出实现
- Function Calling实现
- 多模型支持
- 完整的API封装库
实践任务:
- 开发LLM API封装库
- 支持多种LLM API
- 实现流式输出
- 实现Function Calling
预计时长:4-6小时
第16天:Prompt Engineering
学习目标:
- 理解Prompt Engineering的核心原理
- 掌握Prompt设计的基本原则
- 掌握Few-shot Learning
- 掌握CoT(Chain of Thought)
- 能够优化Prompt提升任务效果
核心内容:
- Prompt Engineering基础
- Prompt设计原则
- Few-shot Learning
- Chain of Thought(CoT)
- 高级Prompt技巧(角色扮演、思维树、自我反思)
- Prompt优化实战
实践任务:
- 优化Prompt提升效果
- 对比Few-shot和Zero-shot
- 分析CoT对复杂任务的影响
预计时长:3-5小时
第17天:LLM评估与选择
学习目标:
- 理解LLM评估的重要性
- 掌握LLM评估指标
- 掌握基准测试方法
- 能够评估和选择合适的LLM
核心内容:
- LLM评估概述
- 评估指标(准确性、效率、成本)
- 基准测试(MMLU、HumanEval、GSM8K)
- 自定义基准测试
- 模型选择标准和方法
实践任务:
- 评估3个模型在特定任务上的表现
- 分析成本优化策略
- 分析性能优化方案
预计时长:3-5小时
第18天:LLM模块总结与项目
学习目标:
- 回顾本周所学知识
- 掌握技术选型方法
- 完成智能问答系统项目
- 总结学习成果
核心内容:
- 知识点回顾
- 技术选型
- 实战项目:智能问答系统
- 系统架构设计
- 后端实现(Python + FastAPI)
- 前端实现(HTML + JavaScript)
- Docker部署
- 学习总结
实践任务:
- 完成智能问答系统项目
- 扩展问答系统功能
- 优化系统性能
预计时长:6-8小时
核心技术栈
LLM架构
- Transformer: 基础架构
- Self-Attention: 注意力机制
- Multi-Head Attention: 多头注意力
- Position Encoding: 位置编码
主流LLM
- GPT系列: OpenAI
- BERT系列: Google
- T5系列: Google
- LLaMA系列: Meta
- Claude系列: Anthropic
- Gemini系列: Google
国内LLM
- 文心一言: 百度
- 通义千问: 阿里
- GLM: 智谱AI
- Kimi: 月之暗面
- DeepSeek: 深度求索
- Yi: 零一万物
开发工具
- Python: 主要开发语言
- FastAPI: Web框架
- OpenAI SDK: OpenAI API
- Anthropic SDK: Claude API
- Google AI SDK: Gemini API
评估工具
- MMLU: 多任务语言理解基准
- HumanEval: 代码生成基准
- GSM8K: 数学推理基准
- BLEU: 文本生成评估
- ROUGE: 文本摘要评估
学习路径
路径1:快速上手(适合初学者)
第11天:LLM原理与架构
第12天:主流LLM架构对比
第15天:LLM API开发实战
第18天:LLM模块总结与项目路径2:深入理解(适合进阶)
第11天:LLM原理与架构
第12天:主流LLM架构对比
第13天:国内大模型详解
第14天:国外大模型详解
第15天:LLM API开发实战
第16天:Prompt Engineering
第17天:LLM评估与选择
第18天:LLM模块总结与项目路径3:实践导向(适合开发者)
第11天:LLM原理与架构
第15天:LLM API开发实战
第16天:Prompt Engineering
第18天:LLM模块总结与项目学习建议
学习节奏
- 每天3-5小时:理论1-2小时 + 实践2-3小时
- 每周复习:周末复习本周内容
- 项目实践:完成智能问答系统项目
学习顺序
- 按天数顺序学习:循序渐进,打好基础
- 理论结合实践:每个知识点都要动手实践
- 完成所有任务:实践任务和课后作业都要完成
实践要求
- 每天实践必须完成:理论+实践结合
- 代码必须运行:所有代码都要测试运行
- 项目必须完成:智能问答系统项目必须完成
课前准备
必备知识
- Python编程基础
- 基本的机器学习概念
- HTTP API基础
推荐知识
- 深度学习基础
- Transformer架构了解
- 自然语言处理基础
环境准备
- Python 3.8+
- OpenAI API Key(可选)
- Anthropic API Key(可选)
- Google AI API Key(可选)
常见问题
Q1:零基础可以学习吗?
A:可以。本模块从LLM原理开始,循序渐进,适合零基础学习者。
Q2:需要什么前置知识?
A:需要Python编程基础、基本的机器学习概念、HTTP API基础。
Q3:每天需要多长时间?
A:建议每天3-5小时,理论1-2小时,实践2-3小时。
Q4:必须按顺序学习吗?
A:建议按顺序学习,但可以根据自己的基础和兴趣调整。
Q5:项目必须完成吗?
A:建议完成,智能问答系统项目是巩固所学知识的重要实践。
Q6:需要购买API吗?
A:不一定,部分模型有免费额度,也可以使用开源模型本地运行。
模块特色
1. 理论与实践结合
- 每天都有理论讲解
- 每天都有实践任务
- 理论知识通过实践巩固
2. 主流模型全覆盖
- 国外主流模型(GPT、Claude、Gemini等)
- 国内主流模型(文心一言、通义千问、GLM等)
- 开源模型(LLaMA、Mistral等)
3. 完整的项目实战
- 智能问答系统项目
- 完整的前后端实现
- Docker部署方案
4. 实用的技能
- LLM API开发
- Prompt Engineering
- 模型评估与选择
- 技术选型方法
课后资源
推荐阅读
- Attention Is All You Need: Transformer原始论文
- Language Models are Few-Shot Learners: GPT-3论文
- BERT: Pre-training of Deep Bidirectional Transformers: BERT论文
在线资源
Hugging Face: https://huggingface.co/
- 模型库和数据集
Papers with Code: https://paperswithcode.com/
- 论文和代码
OpenAI Cookbook: https://github.com/openai/openai-cookbook
- OpenAI API示例
开源项目
LangChain: https://github.com/langchain-ai/langchain
- LLM应用框架
LlamaIndex: https://github.com/run-llama/llama_index
- 数据框架
vLLM: https://github.com/vllm-project/vllm
- 高性能LLM推理
开始学习
点击上方链接开始学习本模块的内容!建议从第11天开始,循序渐进地学习。
祝你学习愉快!

扫描二维码关注"架构师AI杜"公众号,获取更多技术内容和最新动态
