很多人在学习AI开发时,遇到的第一个拦路虎就是"环境搭建"。你可能听过这样的抱怨:"我装了3天环境还没跑起来第一个模型"、"PyTorch装上了但是CUDA报错"、"别人跑通的代码我跑不通,怀疑是环境问题"。
这些问题的根源在于:AI开发环境涉及太多组件,而且组件之间有严格的版本依赖关系。一个完整的AI开发环境通常包含:Python运行时、虚拟环境管理器、GPU驱动、CUDA计算库、深度学习框架、Transformer模型库等。这些组件就像齿轮一样必须精确咬合,一个装错版本其他都会出问题。
本文手把手教你从零搭建一个完整的AI开发环境,涵盖Python环境管理、GPU驱动配置、CUDA计算库安装、主流AI框架部署,让你能够顺畅地运行任何AI代码。搭建完成后,你可以:
为什么必须用Anaconda而不是直接装Python?
AI开发中经常需要同时维护多个项目,每个项目依赖的Python版本和第三方库版本可能完全不同。比如项目A需要Python 3.9+PyTorch 1.13,项目B需要Python 3.11+PyTorch 2.1,如果都装在同一个Python环境里,版本冲突会让你崩溃。Anaconda的虚拟环境功能可以让你在同一台电脑上同时维护多套互不干扰的Python环境,就像在一个柜子里放多个独立收纳盒,每个盒子里的东西互不影响。
另一个重要原因是:Anaconda预装了很多科学计算的库(如NumPy、Pandas、Scikit-learn),可以省去很多单独安装的麻烦。
第一步:下载安装包(推荐Python 3.10版本,这个版本生态最稳定,兼容性最好):
下载地址:https://www.anaconda.com/download
选择Python 3.10版本,64位安装包(约900MB)
第二步:双击安装包运行,注意事项:
D:\Anaconda3 或 C:\Anaconda3(不要放在有中文或空格的路径下)# 下载安装包(约900MB,根据你的网络选择合适的时间下载)
wget https://repo.anaconda.com/archive/Anaconda3-2024.02-1-Linux-x86_64.sh
# 运行安装脚本(一路回车确认license,看到"please answer yes or no"时输入yes)
bash Anaconda3-2024.02-1-Linux-x86_64.sh
# 激活Anaconda环境
source ~/.bashrc
# 验证安装成功
conda --version
# 应该输出类似:conda 24.1.0
# 下载安装包
wget https://repo.anaconda.com/archive/Anaconda3-2024.02-1-MacOSX-x86_64.sh
# 运行安装
bash Anaconda3-2024.02-1-MacOSX-x86_64.sh
# 验证
conda --version
# 下载ARM64版本(专为M芯片优化)
wget https://repo.anaconda.com/archive/Anaconda3-2024.02-1-MacOSX-arm64.sh
# 运行安装
bash Anaconda3-2024.02-1-MacOSX-arm64.sh
# 验证
conda --version
创建专门用于AI开发的虚拟环境,好处是:即使把环境搞乱了,删掉重建即可,不影响系统原有的Python环境和其他项目。
# 创建名为ai的虚拟环境,指定Python版本3.10
conda create -n ai python=3.10 -y
# 激活环境(Windows/Linux/Mac命令相同)
conda activate ai
# 验证激活成功
# Windows:命令行前应该显示(ai)
# (ai) C:\Users\你的用户名>
# Linux/Mac:
# (ai) username@hostname:~$
conda activate ai 来激活环境。如果你有NVIDIA显卡,强烈建议安装CUDA。GPU加速可以让模型训练和推理速度提升几十倍。没有显卡可以跳过这步,CPU也能跑但速度会慢很多(训练一个模型可能需要几天而不是几小时)。
# Windows:按 Win+X,选择"终端"或"命令提示符",输入:
nvidia-smi
# Linux/Mac终端输入:
nvidia-smi
# 如果报错"nvidia-smi不是内部或外部命令"或"command not found"
# 说明NVIDIA驱动没装
正常情况下应该显示类似:
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 535.154.05 Driver Version: 535.154.05 CUDA Version: 12.2 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 NVIDIA GeForce ... Not Supported | 0000:01:00.0 On | 0MiB / 8192MiB |
+-------------------------------+----------------------+----------------------+
下载地址:NVIDIA官方驱动下载
选择你的显卡型号,下载后双击安装即可。建议安装最新稳定版驱动。如果你的显卡比较新(如RTX 40系列),驱动版本需要 >= 535。
CUDA是NVIDIA提供的并行计算平台和编程模型,PyTorch/TensorFlow等深度学习框架都需要CUDA来调用GPU的计算能力。推荐安装CUDA 11.8(最稳定,生态最完善)或CUDA 12.1(更新,支持更新的显卡)。
# Windows下载:https://developer.nvidia.com/cuda-downloads
# 选择:Windows > x86_64 > 10 > exe(local) 或者 exe(network)
# 安装完成后验证
nvcc --version
# 应该输出:
# nvcc: NVIDIA (R) Cuda compiler driver
# Cuda compilation tools, release 11.8, V11.8.89
nvcc --version 报错,需要手动添加环境变量:PyTorch是当前AI开发最流行的深度学习框架,OpenAI、HuggingFace、Meta等都在用。它提供了自动求导机制(Autograd)和GPU加速能力,是所有AI开发的基础。
# 确保在正确的虚拟环境里
conda activate ai
# 安装PyTorch(带CUDA 11.8支持)
# 这个命令会从PyTorch官方源下载,文件较大(约2GB),耐心等待
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
# 如果你安装的是CUDA 12.1版本,用这个命令:
# pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
# 验证PyTorch安装成功
python -c "import torch; print('PyTorch版本:', torch.__version__); print('CUDA可用:', torch.cuda.is_available()); print('GPU数量:', torch.cuda.device_count())"
# 正常输出应该类似:
# PyTorch版本: 2.1.0+cu118
# CUDA可用: True
# GPU数量: 1
接下来安装AI开发中会高频使用的核心库:
# transformers:HuggingFace的核心库,加载GPT/BERT/Llama等预训练模型必备
pip install transformers
# accelerate:加速模型加载和训练,自动利用GPU多卡并行
pip install accelerate
# datasets:方便加载各种公开数据集
pip install datasets
# gradio:快速构建AI模型演示界面,不需要懂前端
pip install gradio
# jupyter:交互式编程环境,代码可以分块运行,方便调试
pip install jupyter
# langchain:大语言模型应用开发框架,RAG/Agent都靠它
pip install langchain
# sentence-transformers:文本向量化,用于语义搜索、相似度匹配
pip install sentence-transformers
# 一次性安装所有(推荐)
pip install transformers accelerate datasets gradio jupyter langchain sentence-transformers pillow
pip install xxx -i https://pypi.tuna.tsinghua.edu.cn/simplepip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple现在你可以运行开源大模型了!有两种方案:
Ollama是当前最简单易用的本地大模型运行工具,类似于"模型版的Docker",支持一键下载和运行Llama3、Qwen、DeepSeek、Mistral等几十种开源模型。特点是安装简单、使用方便,缺点是定制化程度低。
# Windows/Mac:下载地址(选对应系统版本)
https://ollama.com/download
# Linux安装(一行命令搞定)
curl -fsSL https://ollama.com/install.sh | sh
# 验证安装
ollama --version
# 下载第一个模型(Llama3,8B参数,约4GB,根据网速等待5-20分钟)
ollama pull llama3
# 运行模型测试
ollama run llama3
# 等待模型加载完成(第一次慢,以后会缓存)
# 然后可以输入问题:
# 你好,请介绍一下你自己
# 输入 /bye 退出
vLLM是当前最流行的生产级推理引擎,支持PagedAttention、连续批处理等技术,吞吐量比Ollama高10倍以上。适合需要对外提供API服务、或者需要高并发推理的场景。
# 安装vLLM(需要CUDA支持,安装包较大)
pip install vllm
# 启动vLLM服务(以Qwen2-7B为例,首次运行会自动下载模型)
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen2-7B-Instruct \
--port 8000 \
--gpu-memory-utilization 0.9
# 验证服务启动成功
curl http://localhost:8000/v1/models
# 调用API(类似OpenAI格式)
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model": "Qwen/Qwen2-7B-Instruct", "messages": [{"role": "user", "content": "你好"}]}'
环境搭建完成后,用以下测试代码验证每个组件是否正常工作。保存代码为.py文件,用 python 文件名.py 运行。
# 保存为 test_gpu.py
import torch
print("=" * 50)
print("PyTorch + GPU 环境验证")
print("=" * 50)
print(f"PyTorch版本: {torch.__version__}")
print(f"CUDA版本: {torch.version.cuda}")
print(f"GPU型号: {torch.cuda.get_device_name(0) if torch.cuda.is_available() else '无'}")
print(f"GPU数量: {torch.cuda.device_count()}")
if torch.cuda.is_available():
print("\n✅ GPU可用,可以加速AI计算")
# 测试GPU计算
x = torch.randn(1000, 1000).cuda()
y = torch.randn(1000, 1000).cuda()
z = torch.mm(x, y)
print(f"✅ GPU矩阵乘法测试通过,结果形状: {z.shape}")
print(f"✅ GPU显存: {torch.cuda.get_device_properties(0).total_memory / 1024**3:.1f} GB")
else:
print("\n⚠️ GPU不可用,将使用CPU运行(速度较慢,不影响学习)")
print("\n✅ PyTorch环境验证完成")
# 保存为 test_transformers.py
from transformers import pipeline
print("=" * 50)
print("Transformers 库验证")
print("=" * 50)
try:
# 使用GPT-2测试文本生成(模型很小,会自动下载)
generator = pipeline("text-generation", model="gpt2")
result = generator("人工智能将如何改变世界,", max_length=50, num_return_sequences=1)
print(f"✅ 生成结果: {result[0]['generated_text']}")
print("\n✅ Transformers库验证完成")
except Exception as e:
print(f"❌ 出错: {e}")
# 保存为 test_ollama.py
# 注意:需要先安装并运行 ollama run llama3 确认Ollama正常工作
try:
import ollama
print("=" * 50)
print("Ollama 本地模型验证")
print("=" * 50)
response = ollama.chat(model='llama3', messages=[
{'role': 'user', 'content': '用一句话解释什么是大语言模型'}
])
print(f"✅ 模型回复: {response['message']['content']}")
print("\n✅ Ollama本地模型验证完成")
except Exception as e:
print(f"⚠️ Ollama未安装或模型未下载: {e}")
print("提示:运行 'ollama pull llama3' 下载模型")
# 方法1:临时换源(每次安装时加参数)
pip install torch --index-url https://pypi.tuna.tsinghua.edu.cn/simple
# 方法2:永久换源(一次配置,以后都自动用镜像)
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
# 验证换源成功
pip config get global.index-url
# 应该输出:https://pypi.tuna.tsinghua.edu.cn/simple
# 1. 检查驱动版本(需要>=525才能支持CUDA 11.8)
nvidia-smi
# 看右上角Driver Version,需要>=525
# 2. 检查CUDA版本
nvcc --version
# 需要显示CUDA版本号
# 3. 确认PyTorch是CUDA版本(不是CPU版本)
pip show torch | grep Version
# 应该显示类似:2.1.0+cu118
# 4. 重新安装正确版本的PyTorch
pip uninstall torch -y
pip install torch --index-url https://download.pytorch.org/whl/cu118
# 5. 设置CUDA环境变量(Windows)
# 右键"此电脑" > 属性 > 高级系统设置 > 环境变量 > 新建系统变量
# 变量名:CUDA_HOME
# 变量值:C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8
# 然后重启命令行窗口,再运行测试
# Windows:设置CUDA_HOME环境变量
# 右键"此电脑" > 属性 > 高级系统设置 > 环境变量
# 在系统变量中新建:
# 变量名:CUDA_HOME
# 变量值:C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8
# 注意:路径根据你实际安装的CUDA版本调整
# Linux/Mac:在 ~/.bashrc 或 ~/.zshrc 里添加:
export CUDA_HOME=/usr/local/cuda
export PATH=$CUDA_HOME/bin:$PATH
export LD_LIBRARY_PATH=$CUDA_HOME/lib64:$LD_LIBRARY_PATH
# 然后重新加载配置
source ~/.bashrc
# 验证环境变量
echo $CUDA_HOME
# 应该输出:/usr/local/cuda 或 /usr/local/cuda/v11.8
# 确保模型加载到GPU
model = model.cuda() # 或者 model.to('cuda')
# 确保输入数据也移到GPU
inputs = inputs.to('cuda')
# 检查GPU利用率(Linux/Mac)
watch -n 1 nvidia-smi
# 正常情况下GPU利用率应该在30%-90%之间
# 如果是0%:1)检查模型是否真的在GPU上 2)batch size太小 3)数据加载是CPU瓶颈
# 方法1:手动添加到PATH(Windows)
# 右键"此电脑" > 属性 > 高级系统设置 > 环境变量
# 在系统变量的PATH里添加:
# C:\Anaconda3
# C:\Anaconda3\Scripts
# C:\Anaconda3\Library\bin
# 方法2:重新运行Anaconda安装程序,勾选"Add to PATH"
# 方法3:使用Anaconda Prompt(安装后开始菜单会有)
# Anaconda Prompt已经配置好了环境,直接 conda activate ai 即可
| 组件 | 验证命令 | 预期输出 | 不通过怎么办 |
|---|---|---|---|
| Anaconda | conda --version | conda版本号 | 重新安装,勾选添加到PATH |
| Python | python --version | Python 3.10.x | conda create重建环境 |
| 虚拟环境 | conda activate ai | 命令行前显示(ai) | 检查PATH环境变量 |
| PyTorch | python -c "import torch" | 无报错 | pip uninstall torch后重装CUDA版本 |
| GPU支持 | python -c "import torch; print(torch.cuda.is_available())" | True | 检查CUDA驱动和环境变量 |
| Transformers | python -c "from transformers import pipeline" | 无报错 | pip install transformers重装 |
| Ollama | ollama --version | ollama版本号 | 重新运行安装脚本 |
如果你的环境搞乱了想重建,运行这个脚本即可(Linux/Mac):
# 一键重建AI开发环境
conda create -n ai python=3.10 -y && conda activate ai
pip install torch --index-url https://download.pytorch.org/whl/cu118
pip install transformers accelerate datasets gradio jupyter langchain sentence-transformers pillow
pip install vllm
# 验证环境
python -c "import torch; print('✅ PyTorch OK'); print('✅ GPU:', torch.cuda.is_available())"
python -c "from transformers import pipeline; print('✅ Transformers OK')"
# 如果遇到问题,一条一条运行上面的命令,看哪步报错
零基础学习者:先安装Anaconda + PyTorch CPU版本,跑通基础代码后再装GPU支持。避免一次性装太多东西,出问题不知道哪里错。
有GPU的用户:按本文完整安装,享受GPU加速。训练和推理速度比CPU快50-100倍。
只想用不想配置的用户:直接装Ollama,3分钟就能跑模型,不需要配置任何环境。
想部署生产服务的用户:安装vLLM方案,支持高并发API服务,性能最优。