← 返回投肯智能知识库首页
首页 / 技术教程 / 安装配置

AI开发环境一键搭建指南:从Python到LLM开发环境

📖 60分钟更新:2026-05-29

一、背景:为什么AI开发环境搭建让人头疼

每个AI开发者入门时都会遇到同一个问题:环境搭建比写代码还难。Python版本冲突、CUDA驱动不匹配、C++编译报错……这些坑让很多人倒在了真正开始写AI代码之前。本质原因是AI开发涉及太多底层依赖,每条依赖链都可能出错,而不同硬件(NVIDIA GPU、AMD GPU、Mac M系列)的配置方式又各不相同。

本文目标很明确:让一个刚接触AI开发的新手,按照本文步骤,在2小时内完成从零到可以跑起大模型的开发环境。本文覆盖四种主流场景:Windows用户、Linux用户、Mac M系列用户,以及需要用到Docker做环境隔离的高级用户。每个方案都经过实测,踩过的坑全部记录在对应的"避坑"模块里。

二、方案:四种场景的完整环境搭建流程

方案A:Windows用户(推荐WSL2路线)

强烈不建议在Windows原生环境下直接搭AI开发环境,推荐通过WSL2(Windows Subsystem for Linux 2)方式安装,可以规避大量驱动和编译问题。

第一步:开启WSL2

以管理员身份打开PowerShell,运行以下命令:

wsl --install -d Ubuntu-22.04
wsl --set-default-version 2

重启电脑后,Ubuntu终端会自动弹出,按提示设置用户名和密码。

第二步:安装NVIDIA驱动(实体机有NVIDIA显卡必装)

在WSL2中,NVIDIA驱动需要在Windows侧先安装。在Windows商店搜索"NVIDIA GeForce Experience"或从官网下载驱动安装。安装完成后,在WSL2终端验证:

nvidia-smi

如果看到GPU信息输出,说明驱动正常。注意:WSL2下驱动版本需要497.x以上,低于此版本的建议更新。

第三步:安装Anaconda

cd ~
wget https://repo.anaconda.com/archive/Anaconda3-2024.02-1-Linux-x86_64.sh
bash Anaconda3-2024.02-1-Linux-x86_64.sh
source ~/.bashrc

安装过程按回车接受协议,最后输入"yes"完成。验证安装:

conda --version

如果输出conda版本号,说明安装成功。

第四步:创建AI开发专用conda环境

conda create -n ai python=3.11 pip
conda activate ai

Python 3.11是当前AI开发的主流版本,兼容性最好。

第五步:安装PyTorch(GPU版本)

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

如果提示CUDA版本不匹配,先检查CUDA版本:

nvidia-smi  # 右上角显示CUDA版本

根据版本号调整安装命令,例如CUDA 11.8就用cu118,CUDA 12.1就用cu121。

避坑提示(WSL2):

方案B:Linux用户(Ubuntu 22.04为例)

Ubuntu 22.04是AI开发最友好的Linux发行版,NVIDIA驱动和CUDA都有官方PPA支持。

第一步:安装NVIDIA驱动和CUDA

sudo apt update
sudo apt install nvidia-driver-545 nvidia-cuda-toolkit
sudo reboot

重启后验证:

nvidia-smi
nvcc --version

第二步:安装Anaconda

wget https://repo.anaconda.com/archive/Anaconda3-2024.02-1-Linux-x86_64.sh
bash Anaconda3-2024.02-1-Linux-x86_64.sh
source ~/.bashrc

第三步:创建AI开发环境并安装基础库

conda create -n ai python=3.11 -y
conda activate ai
pip install numpy pandas matplotlib jupyterlab ipython

第四步:安装PyTorch GPU版

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

第五步:安装vLLM(可选,高性能推理框架)

pip install vllm

vLLM使用PagedAttention技术,可以将推理速度提升2-10倍,是生产环境的常用选择。

避坑提示(Ubuntu):

方案C:Mac M系列用户(Metal加速)

M系列芯片的Mac统一内存架构(UMA)让跑中等规模模型变得很友好,不需要NVIDIA显卡也能做AI开发。

第一步:确认芯片类型

sysctl -a | grep chip

确认是Apple Silicon(M1/M2/M3/M4)后继续。

第二步:安装brew(如果没有)

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
echo 'eval "$(/opt/homebrew/bin/brew shellenv)"' >> ~/.zshrc
source ~/.zshrc

第三步:安装PyTorch(Metal支持)

brew install python@3.11
pip install torch torchvision torchaudio

Mac版PyTorch会默认使用Metal Performance Shaders(MPS)做GPU加速,训练速度比CPU快3-5倍。

第四步:验证MPS可用

python -c "import torch; print(torch.backends.mps.is_available())"

输出True说明MPS加速正常。

第五步:安装Ollama(本地模型运行工具)

brew install ollama
ollama serve
# 新开终端运行
ollama pull llama3

Ollama是Mac上最方便的本地大模型运行工具,一行命令即可下载并运行模型。

避坑提示(Mac):

方案D:Docker容器化环境(生产级推荐)

如果你需要和别人共享环境,或者在服务器上做开发,Docker是最靠谱的选择。

第一步:安装Docker

sudo apt update
sudo apt install docker.io docker-compose
sudo systemctl enable docker
sudo usermod -aG docker $USER
newgrp docker

第二步:创建AI开发Docker镜像

新建一个Dockerfile:

FROM nvidia/cuda:12.1.0-runtime-ubuntu22.04

ENV DEBIAN_FRONTEND=noninteractive
ENV CONDA_DIR=/opt/conda
ENV PATH=$CONDA_DIR/bin:$PATH

RUN apt update && apt install -y wget curl git vim

# 安装Miniconda
RUN wget https://repo.anaconda.com/archive/Miniconda3-latest-Linux-x86_64.sh -O /tmp/miniconda.sh && \
    bash /tmp/miniconda.sh -b -p $CONDA_DIR && \
    rm /tmp/miniconda.sh

# 创建AI环境
RUN conda create -n ai python=3.11 -y && \
    conda clean -a

# 安装PyTorch
RUN source $CONDA_DIR/etc/profile.d/conda.sh && \
    conda activate ai && \
    pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 && \
    pip install vllm transformers peft

WORKDIR /workspace
CMD ["conda", "activate", "ai"]

第三步:构建并运行镜像

docker build -t ai-dev:latest .
docker run --gpus all -it --name ai-dev -v ~/ai-projects:/workspace ai-dev:latest

--gpus all参数可以让容器完全访问宿主机所有GPU,是NVIDIA Docker的关键参数。

避坑提示(Docker):

三、效果:环境搭建完成后的验证方法

环境搭好后,通过以下步骤逐一验证每个组件是否正常工作。

验证1:Python环境

python --version  # 应输出 Python 3.11.x
pip list | grep -E "torch|numpy"  # 应看到torch和numpy包

验证2:GPU识别

python -c "import torch; print(f'CUDA available: {torch.cuda.is_available()}'); print(f'GPU count: {torch.cuda.device_count()}'); [print(f'GPU {i}: {torch.cuda.get_device_name(i)}') for i in range(torch.cuda.device_count())]"

如果有NVIDIA显卡,应该看到CUDA available: True和GPU型号列表。如果用Mac MPS,这里会显示Metal可用。

验证3:简单推理测试

python -c "
import torch
from transformers import pipeline

pipe = pipeline('text-generation', model='gpt2')
result = pipe('Once upon a time', max_new_tokens=50)
print(result[0]['generated_text'])
"

能输出生成文本说明整个环境跑通了。gpt2只有124M参数,对任何GPU都是秒跑,适合做冒烟测试。

验证4:vLLM推理(如果安装了vLLM)

python -c "
from vllm import LLM
llm = LLM(model='facebook/opt-125m')
from vllm import SamplingParams
params = SamplingParams(temperature=0.8, max_tokens=50)
output = llm.generate(['The future of AI is'], params)
print(output[0].outputs[0].text)
"

vLLM启动后第一次推理会自动进行CUDA图编译,实测速度会比transformers原生的autograd快5-10倍。

四、总结:常见问题与推荐配置

推荐开发配置(按预算分档)

预算档位推荐配置适用场景
入门档(<3000元)Mac M2/M3(16GB+内存) + OllamaAI学习、入门级模型实验
进阶档(3000-10000元)RTX 3060 12GB + WSL2/Ubuntu可跑7B模型、简单训练任务
专业档(10000-30000元)RTX 4090 24GB + Ubuntu + vLLM13B模型训练、生产推理服务
服务器档(>50000元)A100 40GB/A6000 48GB + Docker大模型训练、多节点分布式

常见报错速查

快速环境清理脚本

当环境乱了想重来时,用这个脚本清理:

# 清理conda环境
conda deactivate
conda env remove -n ai -y

# 重新创建干净环境
conda create -n ai python=3.11 -y
conda activate ai
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install transformers peft accelerate bitsandbytes
提示:AI开发环境建议保持"干净隔离",每个项目用独立的conda环境,不要在base环境下直接装包。conda环境之间的隔离靠环境名实现,是AI开发者的基本功。