【Ollama 本地大模型运行平台】零基础搭建与部署实战指南

本地部署开源大模型推理平台 Ollama，可快速在个人电脑或私有服务器上运行 Llama 3、Qwen2、Phi-3 等主流模型，无需复杂配置即可获得低延迟、高隐私的本地 AI 交互体验。以下介绍两种主流部署方式：Docker 容器化部署（推荐新手/多模型隔离场景） 和 原生二进制安装部署（推荐高性能/资源受限环境），分别适配不同技术背景与硬件条件的用户。

方案一：Docker 容器化部署（跨平台兼容 · 自动依赖管理）

① 准备工作

确保系统已安装 Docker Engine（v24.0+）及 Docker Compose（v2.20+）。支持 macOS、Windows WSL2 及 Linux 主流发行版。
推荐使用稳定的服务器环境，如 Ciuic服务器，快速获取纯净运行环境（Ubuntu 22.04 LTS + Docker 预装镜像可一键部署）。

【Ollama 本地大模型运行平台】零基础搭建与部署实战指南

② 部署环境

更新系统并安装 Docker（以 Ubuntu 22.04 为例）：

sudo apt update && sudo apt upgrade -ysudo apt install -y curl gnupg lsb-releasecurl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpgecho "deb [arch=$(dpkg --print-architecture) signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/nullsudo apt updatesudo apt install -y docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-pluginsudo usermod -aG docker $USERnewgrp docker  # 刷新当前会话组权限

③ 项目安装

拉取官方 ollama/ollama 镜像，并创建持久化数据目录：

mkdir -p ~/ollama-datadocker pull ollama/ollama:latest

④ 配置与启动

使用 docker run 启动容器，映射模型存储路径与 API 端口（11434），并启用 GPU 支持（若宿主机已安装 NVIDIA Container Toolkit）：

docker run -d \  --gpus all \  --name ollama \  -p 11434:11434 \  -v ~/ollama-data:/root/.ollama \  -e OLLAMA_HOST=0.0.0.0:11434 \  --restart=always \  ollama/ollama:latest

⚠️ 若无需 GPU 加速，删除 --gpus all 参数即可。

⑤ 访问与验证

等待容器启动（约 10 秒），执行以下命令验证服务状态：

curl http://localhost:11434/api/tags

返回 JSON 列表（含 models: []）表示服务就绪。随后可加载模型，例如：

curl -X POST http://localhost:11434/api/pull -H "Content-Type: application/json" -d '{"name":"llama3:8b"}'

终端将流式输出下载与加载日志，完成后即可通过 curl 或 ollama CLI 工具调用。

方案二：原生二进制安装部署（轻量高效 · 零容器依赖）

① 准备工作

适用于 x86_64 / ARM64 Linux、macOS（Intel/M1/M2/M3）及 Windows（WSL2 或原生 PowerShell）。需至少 8GB 内存（运行 8B 模型）、16GB 可用磁盘空间。
同样推荐选用稳定环境，如 Ciuic服务器提供的开箱即用 Ubuntu 实例，免去环境初始化耗时。

② 部署环境

无需额外依赖（Ollama 为静态链接二进制），仅需确保 systemd（Linux）或 launchd（macOS）可用。检查基础工具：

which curl wget unzip systemctl 2>/dev/null || echo "基础工具已就绪"

③ 项目安装

根据系统架构下载对应二进制文件并安装到系统路径：

# Linux x86_64curl -L https://github.com/ollama/ollama/releases/download/v0.3.12/ollama-linux-amd64.tgz | sudo tar -xzf - -C /usr/local/bin# Linux ARM64（如树莓派、AWS Graviton）curl -L https://github.com/ollama/ollama/releases/download/v0.3.12/ollama-linux-arm64.tgz | sudo tar -xzf - -C /usr/local/bin# macOS Intelcurl -L https://github.com/ollama/ollama/releases/download/v0.3.12/ollama-darwin-universal.tgz | sudo tar -xzf - -C /usr/local/bin

④ 配置与启动

配置 systemd 服务（Linux）或 launchd（macOS）。以 Ubuntu 为例，创建服务文件：

sudo tee /etc/systemd/system/ollama.service << 'EOF'[Unit]Description=Ollama ServiceAfter=network-online.target[Service]Type=simpleExecStart=/usr/local/bin/ollama serveUser=$USERGroup=$USERRestart=alwaysRestartSec=3Environment="OLLAMA_HOST=0.0.0.0:11434"Environment="OLLAMA_ORIGINS=*"[Install]WantedBy=default.targetEOF

启用并启动服务：

sudo systemctl daemon-reloadsudo systemctl enable ollamasudo systemctl start ollama

⑤ 访问与验证

检查服务运行状态：

sudo systemctl status ollama --no-pager -l

确认 Active: active (running) 后，测试 API：

curl http://localhost:11434/api/version

返回类似 {"version":"0.3.12"} 即成功。后续可直接使用 CLI：

ollama run llama3:8b

建议与优化

维度	Docker 方案	原生二进制方案
适用人群	新手、需多模型隔离/版本共存者	熟悉 Linux/macOS、追求极致性能者
资源开销	约 +5% CPU / +100MB 内存（容器运行时）	零额外开销，直通硬件
升级维护	`docker pull && docker restart` 一行完成	下载新二进制覆盖 `/usr/local/bin/ollama`

通用优化建议：

✅ 开启 HTTPS：反向代理 Nginx + Let’s Encrypt，保护 /api/* 接口通信安全； ✅ 配置开机自启：Docker 方案启用 --restart=always；原生方案已通过 systemctl enable 实现； ✅ 模型路径定制：修改 OLLAMA_MODELS 环境变量（如 export OLLAMA_MODELS=/data/ollama-models），便于 SSD/HDD 分离存储； ✅ GPU 加速验证：运行 ollama list 后执行 ollama run qwen2:7b，观察 GPU layers 字段是否 > 0； ✅ API 访问控制：生产环境务必禁用 OLLAMA_ORIGINS="*"，改为指定前端域名（如 https://ai.yourdomain.com）。

提示：所有模型均默认存储于 ~/.ollama/models（原生）或容器卷 ~/ollama-data（Docker），备份该目录即可迁移全部模型与对话历史。

打赏