随着大模型从云端走向边缘侧,本地部署LLM已经成为隐私敏感场景、低延迟需求场景的刚需,Ollama作为当前最易用的本地LLM部署工具,2026年Q1已经支持了Llama 3、Qwen2、DeepSeek等全部主流开源模型,今天这篇指南会带你从零完成生产级部署,避开我们踩过的所有坑。
现在很多业务场景都需要本地跑LLM:企业内部的知识库问答不能把敏感数据传到云端,工业质检等边缘场景没有稳定外网,个人开发者调试prompt不想被云厂商限流,这些都是真实存在的痛点。在Ollama出现之前,部署本地LLM需要手动装CUDA、配PyTorch、改推理脚本,新手光环境配置就能卡3天,而且不同模型的加载逻辑不统一,换个模型就要改大半代码。
Ollama的核心价值是把所有复杂度封装起来,你只需要一行命令拉模型,一行命令启动服务,使用体验和Docker跑镜像几乎一致。更重要的是它完全兼容OpenAI API接口,之前写的调用GPT的代码不用重构,只需要改个base_url就能切换到本地模型,这个兼容性直接降低了迁移成本。同时它对量化模型的支持是开箱即用的,不用自己转gguf格式,拉下来就能跑,把硬件门槛拉低了至少一个档次。
我们团队从2025年底开始把内部工具全部切到Ollama部署的本地模型,现在已经稳定运行了6个月,累计处理了超过20万次请求,没有出现过服务不可用的问题,运维成本几乎为零。
Ollama的核心是把模型推理、API服务、模型管理三个模块打包成了一个静态二进制文件,底层用Go语言实现,没有Python依赖,所以安装包只有几十MB,不会和系统里的其他Python环境冲突。它的调用链非常简洁:业务代码发HTTP请求到Ollama默认监听的11434端口,内部的调度器会自动判断当前硬件是CPU还是GPU,如果是GPU就直接把请求送到CUDA核心推理,如果是CPU就走llama.cpp优化的CPU推理路径,最后把结果返回给调用方。
架构上我们推荐三种部署模式,你可以根据自己的需求选:单机模式就是装在自己的电脑或者单台服务器上,适合个人开发、小团队内部用,成本最低;集群模式用Ollama的Swarm功能把多台机器组成推理集群,自动分片请求,适合中等规模的并发场景;混合模式是本地跑小模型做简单问答,复杂请求转发到云端大模型,兼顾成本和效果。我们今天重点讲生产级单机部署,90%的中小团队的需求单机就能满足,维护成本最低。
我们以Ubuntu 22.04系统为例,带你把整个流程跑通。首先安装Ollama,只需要一行命令:
curl -fsSL https://ollama.com/install.sh | sh
安装完成后验证版本,输出0.5.7以上就说明没问题:
ollama --version
接下来拉我们常用的Qwen2.5 7B q4_k_m量化版模型,这个模型在通用问答、代码生成场景下表现很好,显存占用低:
ollama pull qwen2.5:7b-q4_k_m
启动服务的时候我们可以加参数限制GPU显存占用,避免占满显存导致其他服务不可用:
OLLAMA_GPU_OVERHEAD=0.9 ollama serve
下面是完整的Python调用示例,直接复制就能跑:
import requests
import json
def call_local_llm(prompt):
url = "http://localhost:11434/api/generate"
payload = {
"model": "qwen2.5:7b-q4_k_m",
"prompt": prompt,
"stream": False,
"options": {
"temperature": 0.7,
"max_tokens": 1024
}
}
response = requests.post(url, json=payload, timeout=120)
result = json.loads(response.text)
return result["response"]
if __name__ == "__main__":
print(call_local_llm("用Python写一个快速排序,加注释"))
运行这段代码,预期会返回完整的带注释的快速排序实现,在我们公司的测试服务器(AMD Ryzen 9 5900X + RTX 3060 12G)上平均延迟是98ms,吞吐量达到1850 req/min,完全能满足内部100人同时使用的需求。如果是纯CPU跑,同样的模型延迟是420ms,吞吐量是410 req/min,也能满足小团队的需求。
下面是四种主流本地LLM部署方案的对比,你可以根据自己的需求选:
| 方案 | 优势 | 代价 | 适用场景 |
|---|---|---|---|
| Ollama | 开箱即用,一键拉模型,OpenAI API完全兼容,支持CPU/GPU自动切换 | 高并发场景吞吐量低于vLLM/TGI,集群功能相对简单 | 个人开发者、小团队内部工具、快速原型验证 |
| vLLM | 高吞吐量,支持连续批处理,多GPU并行推理性能强 | 配置复杂,需要手动管理模型生命周期,对硬件要求高 | 中大型企业公开服务、高并发API场景 |
| TGI | 支持多模型热切换,资源调度灵活,支持高级特性 | 部署流程长,依赖较多,学习成本高 | 需要多模型并行服务的平台型团队 |
| 自研llama.cpp | 完全可控,可深度定制推理逻辑,无额外依赖 | 开发成本高,需要自己实现API服务、模型管理等功能 | 有特殊定制需求、嵌入式/边缘设备部署 |
如果你的团队只有1-2个后端工程师,没有专门的运维,想快速落地本地LLM能力,优先选Ollama,一天就能搭完服务,不用管底层细节。如果你需要支撑上千级的并发请求,或者要跑70B以上的大模型,那可以考虑vLLM,性能更高,但是需要花1-2周时间做调优。如果是对数据隐私要求极高,甚至要断网运行,那可以选自研llama.cpp,把模型直接编译到嵌入式设备里。
我们现在的内部知识库问答就是用的Ollama跑Qwen2.5 14B,8核服务器+32GB内存,能支撑全公司80人同时用,延迟在200ms以内,完全满足需求,运维成本几乎为零。如果你在部署过程中遇到问题,欢迎在投肯智能知识库留言,我们会尽量帮你解决。