Appearance
环境搭建与开发准备
2.1 Python 环境配置
2.1.1 Python 安装
Windows 系统
- 下载安装包:访问 Python官网 下载最新版本的Python安装包
- 运行安装程序:勾选"Add Python to PATH"选项
- 验证安装:打开命令提示符,运行
python --version或python3 --version
macOS 系统
- 使用Homebrew:
brew install python3 - 使用官方安装包:从Python官网下载并安装
- 验证安装:打开终端,运行
python3 --version
Linux 系统
- 使用包管理器:
- Ubuntu/Debian:
sudo apt install python3 python3-pip - CentOS/RHEL:
sudo yum install python3 python3-pip
- Ubuntu/Debian:
- 验证安装:运行
python3 --version和pip3 --version
2.1.2 虚拟环境配置
使用 venv
bash
# 创建虚拟环境
python3 -m venv venv
# 激活虚拟环境
# Windows
env\Scripts\activate
# macOS/Linux
source venv/bin/activate
# 退出虚拟环境
deactivate使用 conda
- 安装Miniconda:从 Miniconda官网 下载并安装
- 创建环境:bash
conda create -n rag-env python=3.10 conda activate rag-env
2.1.3 依赖包安装
bash
# 升级pip
pip install --upgrade pip
# 安装基础依赖
pip install numpy pandas matplotlib
# 安装RAG相关依赖
pip install langchain langchain-core langchain-community
pip install sentence-transformers
pip install faiss-cpu # 或 faiss-gpu(如果有GPU)
pip install pypdf python-docx
pip install streamlit gradio2.2 Git 基础使用
2.2.1 Git 安装
Windows 系统
从 Git官网 下载并安装Git。
macOS 系统
bash
# 使用Homebrew
brew install git
# 或使用Xcode命令行工具
xcode-select --installLinux 系统
bash
# Ubuntu/Debian
sudo apt install git
# CentOS/RHEL
sudo yum install git2.2.2 Git 配置
bash
# 配置用户名和邮箱
git config --global user.name "Your Name"
git config --global user.email "your.email@example.com"
# 配置默认编辑器
git config --global core.editor "code --wait" # 使用VSCode
# 查看配置
git config --list2.2.3 常用 Git 命令
| 命令 | 描述 |
|---|---|
git init | 初始化新的Git仓库 |
git clone <url> | 克隆远程仓库 |
git add <file> | 添加文件到暂存区 |
git commit -m "message" | 提交更改 |
git push | 推送到远程仓库 |
git pull | 从远程仓库拉取 |
git branch | 查看分支 |
git checkout <branch> | 切换分支 |
git merge <branch> | 合并分支 |
git status | 查看状态 |
git log | 查看提交历史 |
2.2.4 Git 工作流程
- 创建分支:
git checkout -b feature-branch - 修改文件:进行代码修改
- 添加更改:
git add . - 提交更改:
git commit -m "Add feature" - 推送分支:
git push origin feature-branch - 创建Pull Request:在GitHub/Gitee上创建PR
- 合并分支:审核后合并到主分支
2.3 Docker 基础使用
2.3.1 Docker 安装
Windows 系统
- 下载并安装 Docker Desktop for Windows
- 启用WSL 2功能
- 启动Docker Desktop
macOS 系统
- 下载并安装 Docker Desktop for Mac
- 启动Docker Desktop
Linux 系统
bash
# Ubuntu/Debian
curl -fsSL https://get.docker.com -o get-docker.sh
sh get-docker.sh
# 启动Docker服务
sudo systemctl start docker
sudo systemctl enable docker
# 添加用户到docker组
sudo usermod -aG docker $USER2.3.2 Docker 基本命令
| 命令 | 描述 |
|---|---|
docker pull <image> | 拉取镜像 |
docker run <image> | 运行容器 |
docker ps | 查看运行中的容器 |
docker ps -a | 查看所有容器 |
docker stop <container> | 停止容器 |
docker rm <container> | 删除容器 |
docker images | 查看镜像 |
docker rmi <image> | 删除镜像 |
docker build -t <name> . | 构建镜像 |
docker-compose up | 启动多容器应用 |
2.3.3 Docker Compose
安装Docker Compose:
- Windows/macOS:Docker Desktop已包含
- Linux:bash
sudo curl -L "https://github.com/docker/compose/releases/download/v2.20.0/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose sudo chmod +x /usr/local/bin/docker-compose
编写docker-compose.yml:
yamlversion: '3' services: rag-app: build: . ports: - "8000:8000" volumes: - ./data:/app/data environment: - OPENAI_API_KEY=${OPENAI_API_KEY}运行服务:
docker-compose up -d
2.4 开发工具配置
2.4.1 VSCode 安装与配置
下载安装:从 VSCode官网 下载并安装
推荐插件:
- Python
- Jupyter
- Docker
- GitLens
- Code Runner
- Prettier
设置Python解释器:
- 按下
Ctrl+Shift+P(Windows)或Cmd+Shift+P(macOS) - 输入 "Python: Select Interpreter"
- 选择虚拟环境中的Python解释器
- 按下
2.4.2 Jupyter Notebook 配置
bash
# 安装Jupyter
pip install jupyter
# 启动Jupyter
jupyter notebook
# 或安装JupyterLab
pip install jupyterlab
jupyter lab2.4.3 其他开发工具
- PyCharm:专业Python IDE,适合大型项目
- Sublime Text:轻量级编辑器,启动速度快
- Vim/Neovim:命令行编辑器,适合终端用户
2.5 课程项目初始化
2.5.1 创建项目结构
bash
# 创建项目目录
mkdir rag-enterprise-knowledgebase
cd rag-enterprise-knowledgebase
# 创建目录结构
mkdir -p src/{data,models,utils,api,ui}
mkdir -p tests
touch README.md requirements.txt .gitignore2.5.2 编写 README.md
markdown
# 企业私有知识库落地实战
## 项目简介
基于LLM+RAG技术的企业私有知识库系统,支持文档上传、智能问答、多模态处理等功能。
## 环境要求
- Python 3.10+
- Git
- Docker (可选)
## 安装依赖
```bash
# 创建虚拟环境
python3 -m venv venv
# 激活虚拟环境
# Windows
env\Scripts\activate
# macOS/Linux
source venv/bin/activate
# 安装依赖
pip install -r requirements.txt快速开始
bash
# 启动应用
python src/api/app.py
# 或使用Streamlit
streamlit run src/ui/app.py项目结构
src/:源代码data/:数据文件models/:模型相关代码utils/:工具函数api/:API接口ui/:用户界面
tests/:测试代码requirements.txt:依赖包列表README.md:项目说明
2.5.3 编写 requirements.txt
txt
# 基础依赖
numpy==1.26.4
pandas==2.2.1
matplotlib==3.8.4
# RAG核心依赖
langchain==0.2.0
langchain-core==0.2.0
langchain-community==0.2.0
sentence-transformers==2.7.0
faiss-cpu==1.7.4
# 文档处理
pypdf==4.1.0
python-docx==0.8.11
python-pptx==0.6.23
# 界面
streamlit==1.35.0
gradio==4.20.0
# API
fastapi==0.110.0
uvicorn==0.29.0
# 其他
python-dotenv==1.0.12.5.4 编写 .gitignore
gitignore
# Python
__pycache__/
*.py[cod]
*$py.class
# Virtual environment
venv/
env/
# IDE
.vscode/
.idea/
# Data
data/
*.csv
*.json
*.pkl
# Environment variables
.env
# Docker
docker-compose.override.yml
# Build artifacts
build/
dist/
*.egg-info/2.5.5 初始化Git仓库
bash
# 初始化仓库
git init
# 添加文件
git add .
# 提交初始 commit
git commit -m "Initial commit"
# 关联远程仓库
git remote add origin <your-repo-url>
# 推送到远程
git push -u origin main2.6 本章小结
- 配置了Python环境和虚拟环境
- 学习了Git基础命令和工作流程
- 掌握了Docker基本使用方法
- 配置了开发工具(VSCode、Jupyter)
- 初始化了课程项目结构
现在我们已经完成了开发环境的搭建,为后续的RAG系统开发做好了准备。在接下来的章节中,我们将深入学习文本处理与Embedding技术,为知识库系统的核心功能打下基础。
