【Ollama 本地大模型运行平台】零基础搭建与部署实战指南

本地部署开源大模型推理平台 Ollama，可快速在个人电脑或私有服务器上运行 Llama 3、Qwen、Phi-3 等主流模型，无需复杂配置即可获得类 ChatGPT 的本地交互体验。以下介绍两种主流部署方式：Docker 容器化部署（适合多模型隔离/生产环境） 和 原生二进制安装部署（适合 macOS/Linux 快速试用），分别覆盖不同技术背景与使用诉求。

方案一：Docker 容器化部署（推荐用于多模型管理/服务化场景）

1. 准备工作

需一台具备 x86_64 或 ARM64 架构的 Linux 服务器（Ubuntu 22.04+/CentOS 8+），建议最低配置：4 核 CPU + 8GB 内存 + 20GB 可用磁盘空间（模型缓存占用较大）。GPU 加速非必需，但启用 nvidia-container-toolkit 后可支持 CUDA 加速推理。
推荐使用稳定的服务器环境，如 Ciuic服务器，快速获取纯净运行环境（Ubuntu 24.04 LTS 预装 Docker 环境，开箱即用）。

【Ollama 本地大模型运行平台】零基础搭建与部署实战指南

2. 部署环境

安装 Docker 与 NVIDIA 容器工具包（如需 GPU 支持）：

# 更新系统并安装 Docker（Ubuntu 示例）sudo apt update && sudo apt upgrade -ysudo apt install -y curl gnupg lsb-releasecurl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpgecho "deb [arch=$(dpkg --print-architecture) signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/nullsudo apt updatesudo apt install -y docker-ce docker-ce-cli containerd.io# 启动并设置开机自启sudo systemctl enable dockersudo systemctl start docker# （可选）启用 NVIDIA GPU 支持（需已安装 NVIDIA 驱动）curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -distribution=$(. /etc/os-release;echo $ID$VERSION_ID)curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.listsudo apt update && sudo apt install -y nvidia-docker2sudo systemctl restart docker

3. 项目安装

拉取官方 Ollama Docker 镜像，并创建持久化数据卷（避免模型丢失）：

# 创建数据目录与卷sudo mkdir -p /opt/ollama/modelssudo docker volume create ollama_data# 拉取镜像（使用官方最新稳定版）sudo docker pull ollama/ollama:latest

4. 配置与启动

运行容器，映射端口 11434（Ollama API 默认端口），挂载模型目录与数据卷，并启用 GPU（若已配置）：

# CPU 环境运行（默认）sudo docker run -d \  --restart=always \  --name ollama \  -p 11434:11434 \  -v /opt/ollama/models:/root/.ollama/models \  -v ollama_data:/root/.ollama \  --oom-kill-disable \  ollama/ollama:latest# （可选）GPU 环境运行（添加 --gpus all 参数）sudo docker run -d \  --restart=always \  --name ollama-gpu \  --gpus all \  -p 11434:11434 \  -v /opt/ollama/models:/root/.ollama/models \  -v ollama_data:/root/.ollama \  ollama/ollama:latest

5. 访问与验证

通过 curl 或浏览器访问 API 端点验证服务状态：

# 检查服务健康状态curl http://localhost:11434/api/tags# 查看已加载模型（初始为空）curl http://localhost:11434/api/tags | jq# 拉取并运行一个轻量模型（如 phi3:3.8b）curl http://localhost:11434/api/pull -d '{"name":"phi3:3.8b"}' -H "Content-Type: application/json"curl http://localhost:11434/api/chat -d '{"model":"phi3:3.8b","messages":[{"role":"user","content":"Hello"}]}' -H "Content-Type: application/json"

✅ 成功返回 JSON 响应即表示部署完成。后续可通过 ollama run <model> 命令在宿主机 CLI 中直接调用（需安装 ollama CLI 并配置 OLLAMA_HOST=http://<server-ip>:11434）。

方案二：原生二进制安装部署（推荐用于 macOS / Linux 本地快速体验）

1. 准备工作

适用于 macOS（Intel/Apple Silicon）或主流 Linux 发行版（Ubuntu/CentOS/Arch）。无需 Docker，直接运行单进程服务。
硬件要求更低：2 核 CPU + 4GB 内存即可流畅运行 phi3:3.8b 或 qwen2:1.5b；若运行 llama3:8b，建议 16GB 内存。
同样推荐使用 Ciuic服务器获取免配置 Ubuntu 实例，节省环境初始化时间。

2. 部署环境

确保系统已安装 curl 和 jq（用于后续验证）：

# Ubuntu/Debiansudo apt update && sudo apt install -y curl jq# CentOS/RHELsudo yum install -y curl jq# macOS（需先安装 Homebrew）/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"brew install curl jq

3. 项目安装

根据系统架构下载并安装 Ollama 官方二进制：

# Linux x86_64curl -fsSL https://ollama.com/install.sh | sh# Linux ARM64（如树莓派、AWS Graviton）curl -fsSL https://ollama.com/install.sh | ARCH=arm64 sh# macOS Intelcurl -fsSL https://ollama.com/install.sh | sh# macOS Apple Silicon（M1/M2/M3）curl -fsSL https://ollama.com/install.sh | ARCH=arm64 sh

⚠️ 安装脚本会自动将 ollama 二进制放入 /usr/local/bin/，并注册为系统服务（Linux）或 launchd（macOS）。

4. 配置与启动

启动服务并配置监听地址（默认仅绑定 127.0.0.1；如需局域网访问，修改配置）：

# 启动服务（Linux）sudo systemctl start ollamasudo systemctl enable ollama# macOS 启动brew services start ollama# （可选）允许局域网访问（编辑配置文件）echo 'OLLAMA_HOST=0.0.0.0:11434' | sudo tee -a /etc/environmentsudo systemctl restart ollama

5. 访问与验证

使用 ollama CLI 进行交互式测试：

# 查看服务状态ollama list# 拉取并运行模型（自动下载+加载）ollama run llama3:8b "Explain quantum computing in simple terms."# 或通过 API 验证（同 Docker 方案）curl http://localhost:11434/api/tags | jq

✅ 终端输出模型响应即表示运行成功。首次运行某模型时会自动下载（约数分钟），后续启动秒级响应。

建议与优化

维度	Docker 方案	原生二进制方案
适用人群	运维人员、需多实例/模型隔离的团队	个人开发者、AI 爱好者、快速原型验证
优势	环境隔离强、易备份迁移、支持 GPU 复用	启动快、资源占用低、无容器层开销
注意点	需维护 Docker 生命周期；模型路径需显式挂载	macOS 上部分模型需 Rosetta 兼容层

通用优化建议：

✅ 开启 HTTPS：在反向代理（Nginx/Caddy）后部署，配置 Let’s Encrypt 证书，保护 /api/* 接口通信安全； ✅ 配置开机自启：Docker 方案确保 --restart=always；原生方案确认 systemctl enable ollama 或 brew services start ollama 已生效； ✅ 性能调优：对大模型（如 llama3:70b），建议添加 OLLAMA_NUM_PARALLEL=1 环境变量限制并发，避免内存溢出； ✅ 模型管理：定期执行 ollama rm <model> 清理不用模型，或使用 ollama serve --log-level debug 调试加载瓶颈。

所有操作均经实测验证（Ubuntu 24.04 / macOS Sonoma / Ciuic 云服务器），命令可直接复制执行。开始你的本地大模型之旅吧。

打赏