Skip to content

环境搭建与开发准备

2.1 Python 环境配置

2.1.1 Python 安装

Windows 系统

  1. 下载安装包:访问 Python官网 下载最新版本的Python安装包
  2. 运行安装程序:勾选"Add Python to PATH"选项
  3. 验证安装:打开命令提示符,运行 python --versionpython3 --version

macOS 系统

  1. 使用Homebrewbrew install python3
  2. 使用官方安装包:从Python官网下载并安装
  3. 验证安装:打开终端,运行 python3 --version

Linux 系统

  1. 使用包管理器
    • Ubuntu/Debian: sudo apt install python3 python3-pip
    • CentOS/RHEL: sudo yum install python3 python3-pip
  2. 验证安装:运行 python3 --versionpip3 --version

2.1.2 虚拟环境配置

使用 venv

bash
# 创建虚拟环境
python3 -m venv venv

# 激活虚拟环境
# Windows
env\Scripts\activate
# macOS/Linux
source venv/bin/activate

# 退出虚拟环境
deactivate

使用 conda

  1. 安装Miniconda:从 Miniconda官网 下载并安装
  2. 创建环境
    bash
    conda create -n rag-env python=3.10
    conda activate rag-env

2.1.3 依赖包安装

bash
# 升级pip
pip install --upgrade pip

# 安装基础依赖
pip install numpy pandas matplotlib

# 安装RAG相关依赖
pip install langchain langchain-core langchain-community
pip install sentence-transformers
pip install faiss-cpu  # 或 faiss-gpu(如果有GPU)
pip install pypdf python-docx
pip install streamlit gradio

2.2 Git 基础使用

2.2.1 Git 安装

Windows 系统

Git官网 下载并安装Git。

macOS 系统

bash
# 使用Homebrew
brew install git

# 或使用Xcode命令行工具
xcode-select --install

Linux 系统

bash
# Ubuntu/Debian
sudo apt install git

# CentOS/RHEL
sudo yum install git

2.2.2 Git 配置

bash
# 配置用户名和邮箱
git config --global user.name "Your Name"
git config --global user.email "your.email@example.com"

# 配置默认编辑器
git config --global core.editor "code --wait"  # 使用VSCode

# 查看配置
git config --list

2.2.3 常用 Git 命令

命令描述
git init初始化新的Git仓库
git clone <url>克隆远程仓库
git add <file>添加文件到暂存区
git commit -m "message"提交更改
git push推送到远程仓库
git pull从远程仓库拉取
git branch查看分支
git checkout <branch>切换分支
git merge <branch>合并分支
git status查看状态
git log查看提交历史

2.2.4 Git 工作流程

  1. 创建分支git checkout -b feature-branch
  2. 修改文件:进行代码修改
  3. 添加更改git add .
  4. 提交更改git commit -m "Add feature"
  5. 推送分支git push origin feature-branch
  6. 创建Pull Request:在GitHub/Gitee上创建PR
  7. 合并分支:审核后合并到主分支

2.3 Docker 基础使用

2.3.1 Docker 安装

Windows 系统

  1. 下载并安装 Docker Desktop for Windows
  2. 启用WSL 2功能
  3. 启动Docker Desktop

macOS 系统

  1. 下载并安装 Docker Desktop for Mac
  2. 启动Docker Desktop

Linux 系统

bash
# Ubuntu/Debian
curl -fsSL https://get.docker.com -o get-docker.sh
sh get-docker.sh

# 启动Docker服务
sudo systemctl start docker
sudo systemctl enable docker

# 添加用户到docker组
sudo usermod -aG docker $USER

2.3.2 Docker 基本命令

命令描述
docker pull <image>拉取镜像
docker run <image>运行容器
docker ps查看运行中的容器
docker ps -a查看所有容器
docker stop <container>停止容器
docker rm <container>删除容器
docker images查看镜像
docker rmi <image>删除镜像
docker build -t <name> .构建镜像
docker-compose up启动多容器应用

2.3.3 Docker Compose

  1. 安装Docker Compose

    • Windows/macOS:Docker Desktop已包含
    • Linux:
      bash
      sudo curl -L "https://github.com/docker/compose/releases/download/v2.20.0/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose
      sudo chmod +x /usr/local/bin/docker-compose
  2. 编写docker-compose.yml

    yaml
    version: '3'
    services:
      rag-app:
        build: .
        ports:
          - "8000:8000"
        volumes:
          - ./data:/app/data
        environment:
          - OPENAI_API_KEY=${OPENAI_API_KEY}
  3. 运行服务docker-compose up -d

2.4 开发工具配置

2.4.1 VSCode 安装与配置

  1. 下载安装:从 VSCode官网 下载并安装

  2. 推荐插件

    • Python
    • Jupyter
    • Docker
    • GitLens
    • Code Runner
    • Prettier
  3. 设置Python解释器

    • 按下 Ctrl+Shift+P(Windows)或 Cmd+Shift+P(macOS)
    • 输入 "Python: Select Interpreter"
    • 选择虚拟环境中的Python解释器

2.4.2 Jupyter Notebook 配置

bash
# 安装Jupyter
pip install jupyter

# 启动Jupyter
jupyter notebook

# 或安装JupyterLab
pip install jupyterlab
jupyter lab

2.4.3 其他开发工具

  • PyCharm:专业Python IDE,适合大型项目
  • Sublime Text:轻量级编辑器,启动速度快
  • Vim/Neovim:命令行编辑器,适合终端用户

2.5 课程项目初始化

2.5.1 创建项目结构

bash
# 创建项目目录
mkdir rag-enterprise-knowledgebase
cd rag-enterprise-knowledgebase

# 创建目录结构
mkdir -p src/{data,models,utils,api,ui}
mkdir -p tests
touch README.md requirements.txt .gitignore

2.5.2 编写 README.md

markdown
# 企业私有知识库落地实战

## 项目简介

基于LLM+RAG技术的企业私有知识库系统,支持文档上传、智能问答、多模态处理等功能。

## 环境要求

- Python 3.10+
- Git
- Docker (可选)

## 安装依赖

```bash
# 创建虚拟环境
python3 -m venv venv

# 激活虚拟环境
# Windows
env\Scripts\activate
# macOS/Linux
source venv/bin/activate

# 安装依赖
pip install -r requirements.txt

快速开始

bash
# 启动应用
python src/api/app.py

# 或使用Streamlit
streamlit run src/ui/app.py

项目结构

  • src/:源代码
    • data/:数据文件
    • models/:模型相关代码
    • utils/:工具函数
    • api/:API接口
    • ui/:用户界面
  • tests/:测试代码
  • requirements.txt:依赖包列表
  • README.md:项目说明

2.5.3 编写 requirements.txt

txt
# 基础依赖
numpy==1.26.4
pandas==2.2.1
matplotlib==3.8.4

# RAG核心依赖
langchain==0.2.0
langchain-core==0.2.0
langchain-community==0.2.0
sentence-transformers==2.7.0
faiss-cpu==1.7.4

# 文档处理
pypdf==4.1.0
python-docx==0.8.11
python-pptx==0.6.23

# 界面
streamlit==1.35.0
gradio==4.20.0

# API
fastapi==0.110.0
uvicorn==0.29.0

# 其他
python-dotenv==1.0.1

2.5.4 编写 .gitignore

gitignore
# Python
__pycache__/
*.py[cod]
*$py.class

# Virtual environment
venv/
env/

# IDE
.vscode/
.idea/

# Data
data/
*.csv
*.json
*.pkl

# Environment variables
.env

# Docker
docker-compose.override.yml

# Build artifacts
build/
dist/
*.egg-info/

2.5.5 初始化Git仓库

bash
# 初始化仓库
git init

# 添加文件
git add .

# 提交初始 commit
git commit -m "Initial commit"

# 关联远程仓库
git remote add origin <your-repo-url>

# 推送到远程
git push -u origin main

2.6 本章小结

  • 配置了Python环境和虚拟环境
  • 学习了Git基础命令和工作流程
  • 掌握了Docker基本使用方法
  • 配置了开发工具(VSCode、Jupyter)
  • 初始化了课程项目结构

现在我们已经完成了开发环境的搭建,为后续的RAG系统开发做好了准备。在接下来的章节中,我们将深入学习文本处理与Embedding技术,为知识库系统的核心功能打下基础。