Skip to content

模块1:大语言模型基础(8天)

模块概述

本模块将带你深入了解大语言模型(LLM)的核心原理、主流架构、API开发、Prompt工程和模型评估,为后续学习打下坚实基础。

学习目标

  • 理解LLM的核心原理和架构
  • 掌握主流LLM的特点和差异
  • 能够开发LLM应用
  • 掌握Prompt Engineering技巧
  • 能够评估和选择合适的LLM

课程安排

第11天:LLM原理与架构

学习目标

  • 理解Transformer架构的核心原理
  • 掌握Self-Attention机制的实现
  • 了解位置编码的作用和类型
  • 能够从零实现Self-Attention

核心内容

  • Transformer架构概述
  • Self-Attention机制
  • Multi-Head Attention
  • 位置编码(正弦、可学习、相对)
  • 前馈神经网络
  • 完整的Transformer层

实践任务

  • 从零实现Self-Attention模块
  • 实现Multi-Head Attention
  • 实现位置编码
  • 测试注意力机制

预计时长:3-5小时


第12天:主流LLM架构对比

学习目标

  • 理解主流LLM架构的差异
  • 掌握GPT、BERT、T5、LLaMA、PaLM、Gemini的核心特点
  • 对比不同模型的优缺点
  • 能够选择合适的模型

核心内容

  • GPT系列(Decoder-only)
  • BERT系列(Encoder-only)
  • T5系列(Encoder-Decoder)
  • LLaMA系列(开源优化)
  • PaLM系列(MoE架构)
  • Gemini系列(多模态)

实践任务

  • 调用不同模型API
  • 对比输出结果
  • 分析差异

预计时长:3-5小时


第13天:国内大模型详解

学习目标

  • 了解国内主流大模型
  • 掌握文心一言、通义千问、混元、豆包、GLM、Kimi、DeepSeek、Yi的特点
  • 对比国内大模型的差异
  • 能够调用国内大模型API

核心内容

  • 文心一言(百度)- 知识增强
  • 通义千问(阿里)- 多尺寸模型
  • 混元(腾讯)- 多模态
  • 豆包(字节跳动)- 对话优化
  • GLM(智谱AI)- 自研架构
  • Kimi(月之暗面)- 超长上下文
  • DeepSeek(深度求索)- MoE架构
  • Yi(零一万物)- 开源友好

实践任务

  • 调用5个国内模型API
  • 对比输出结果
  • 分析性能差异

预计时长:3-5小时


第14天:国外大模型详解

学习目标

  • 了解国外主流大模型
  • 掌握GPT、Claude、Gemini、Llama、Mistral的特点
  • 对比国外大模型的差异
  • 能够调用国外大模型API

核心内容

  • GPT系列(OpenAI)- 生成能力强
  • Claude系列(Anthropic)- 安全性强
  • Gemini系列(Google)- 多模态
  • Llama系列(Meta)- 完全开源
  • Mistral系列(Mistral AI)- 高效

实践任务

  • 调用3个国外模型API
  • 对比输出结果
  • 分析性能差异

预计时长:3-5小时


第15天:LLM API开发实战

学习目标

  • 掌握LLM API的封装方法
  • 实现流式输出
  • 实现Function Calling
  • 开发LLM API封装库

核心内容

  • LLM API基础
  • 流式输出实现
  • Function Calling实现
  • 多模型支持
  • 完整的API封装库

实践任务

  • 开发LLM API封装库
  • 支持多种LLM API
  • 实现流式输出
  • 实现Function Calling

预计时长:4-6小时


第16天:Prompt Engineering

学习目标

  • 理解Prompt Engineering的核心原理
  • 掌握Prompt设计的基本原则
  • 掌握Few-shot Learning
  • 掌握CoT(Chain of Thought)
  • 能够优化Prompt提升任务效果

核心内容

  • Prompt Engineering基础
  • Prompt设计原则
  • Few-shot Learning
  • Chain of Thought(CoT)
  • 高级Prompt技巧(角色扮演、思维树、自我反思)
  • Prompt优化实战

实践任务

  • 优化Prompt提升效果
  • 对比Few-shot和Zero-shot
  • 分析CoT对复杂任务的影响

预计时长:3-5小时


第17天:LLM评估与选择

学习目标

  • 理解LLM评估的重要性
  • 掌握LLM评估指标
  • 掌握基准测试方法
  • 能够评估和选择合适的LLM

核心内容

  • LLM评估概述
  • 评估指标(准确性、效率、成本)
  • 基准测试(MMLU、HumanEval、GSM8K)
  • 自定义基准测试
  • 模型选择标准和方法

实践任务

  • 评估3个模型在特定任务上的表现
  • 分析成本优化策略
  • 分析性能优化方案

预计时长:3-5小时


第18天:LLM模块总结与项目

学习目标

  • 回顾本周所学知识
  • 掌握技术选型方法
  • 完成智能问答系统项目
  • 总结学习成果

核心内容

  • 知识点回顾
  • 技术选型
  • 实战项目:智能问答系统
    • 系统架构设计
    • 后端实现(Python + FastAPI)
    • 前端实现(HTML + JavaScript)
    • Docker部署
  • 学习总结

实践任务

  • 完成智能问答系统项目
  • 扩展问答系统功能
  • 优化系统性能

预计时长:6-8小时


核心技术栈

LLM架构

  • Transformer: 基础架构
  • Self-Attention: 注意力机制
  • Multi-Head Attention: 多头注意力
  • Position Encoding: 位置编码

主流LLM

  • GPT系列: OpenAI
  • BERT系列: Google
  • T5系列: Google
  • LLaMA系列: Meta
  • Claude系列: Anthropic
  • Gemini系列: Google

国内LLM

  • 文心一言: 百度
  • 通义千问: 阿里
  • GLM: 智谱AI
  • Kimi: 月之暗面
  • DeepSeek: 深度求索
  • Yi: 零一万物

开发工具

  • Python: 主要开发语言
  • FastAPI: Web框架
  • OpenAI SDK: OpenAI API
  • Anthropic SDK: Claude API
  • Google AI SDK: Gemini API

评估工具

  • MMLU: 多任务语言理解基准
  • HumanEval: 代码生成基准
  • GSM8K: 数学推理基准
  • BLEU: 文本生成评估
  • ROUGE: 文本摘要评估

学习路径

路径1:快速上手(适合初学者)

第11天:LLM原理与架构
第12天:主流LLM架构对比
第15天:LLM API开发实战
第18天:LLM模块总结与项目

路径2:深入理解(适合进阶)

第11天:LLM原理与架构
第12天:主流LLM架构对比
第13天:国内大模型详解
第14天:国外大模型详解
第15天:LLM API开发实战
第16天:Prompt Engineering
第17天:LLM评估与选择
第18天:LLM模块总结与项目

路径3:实践导向(适合开发者)

第11天:LLM原理与架构
第15天:LLM API开发实战
第16天:Prompt Engineering
第18天:LLM模块总结与项目

学习建议

学习节奏

  • 每天3-5小时:理论1-2小时 + 实践2-3小时
  • 每周复习:周末复习本周内容
  • 项目实践:完成智能问答系统项目

学习顺序

  • 按天数顺序学习:循序渐进,打好基础
  • 理论结合实践:每个知识点都要动手实践
  • 完成所有任务:实践任务和课后作业都要完成

实践要求

  • 每天实践必须完成:理论+实践结合
  • 代码必须运行:所有代码都要测试运行
  • 项目必须完成:智能问答系统项目必须完成

课前准备

必备知识

  • Python编程基础
  • 基本的机器学习概念
  • HTTP API基础

推荐知识

  • 深度学习基础
  • Transformer架构了解
  • 自然语言处理基础

环境准备

  • Python 3.8+
  • OpenAI API Key(可选)
  • Anthropic API Key(可选)
  • Google AI API Key(可选)

常见问题

Q1:零基础可以学习吗?

A:可以。本模块从LLM原理开始,循序渐进,适合零基础学习者。

Q2:需要什么前置知识?

A:需要Python编程基础、基本的机器学习概念、HTTP API基础。

Q3:每天需要多长时间?

A:建议每天3-5小时,理论1-2小时,实践2-3小时。

Q4:必须按顺序学习吗?

A:建议按顺序学习,但可以根据自己的基础和兴趣调整。

Q5:项目必须完成吗?

A:建议完成,智能问答系统项目是巩固所学知识的重要实践。

Q6:需要购买API吗?

A:不一定,部分模型有免费额度,也可以使用开源模型本地运行。

模块特色

1. 理论与实践结合

  • 每天都有理论讲解
  • 每天都有实践任务
  • 理论知识通过实践巩固

2. 主流模型全覆盖

  • 国外主流模型(GPT、Claude、Gemini等)
  • 国内主流模型(文心一言、通义千问、GLM等)
  • 开源模型(LLaMA、Mistral等)

3. 完整的项目实战

  • 智能问答系统项目
  • 完整的前后端实现
  • Docker部署方案

4. 实用的技能

  • LLM API开发
  • Prompt Engineering
  • 模型评估与选择
  • 技术选型方法

课后资源

推荐阅读

  1. Attention Is All You Need: Transformer原始论文
  2. Language Models are Few-Shot Learners: GPT-3论文
  3. BERT: Pre-training of Deep Bidirectional Transformers: BERT论文

在线资源

  1. Hugging Face: https://huggingface.co/

    • 模型库和数据集
  2. Papers with Code: https://paperswithcode.com/

    • 论文和代码
  3. OpenAI Cookbook: https://github.com/openai/openai-cookbook

    • OpenAI API示例

开源项目

  1. LangChain: https://github.com/langchain-ai/langchain

    • LLM应用框架
  2. LlamaIndex: https://github.com/run-llama/llama_index

    • 数据框架
  3. vLLM: https://github.com/vllm-project/vllm

    • 高性能LLM推理

开始学习

点击上方链接开始学习本模块的内容!建议从第11天开始,循序渐进地学习。

祝你学习愉快!


架构师AI杜公众号二维码

扫描二维码关注"架构师AI杜"公众号,获取更多技术内容和最新动态