本地部署开源大模型推理平台 Ollama,可快速在个人电脑或私有服务器上运行 Llama 3、Qwen、Phi-3 等主流模型,无需复杂配置即可获得类 ChatGPT 的本地交互体验。以下介绍两种主流部署方式:Docker 容器化部署(适合多模型隔离/生产环境) 和 原生二进制安装部署(适合 macOS/Linux 快速试用),分别覆盖不同技术背景与使用诉求。
需一台具备 x86_64 或 ARM64 架构的 Linux 服务器(Ubuntu 22.04+/CentOS 8+),建议最低配置:4 核 CPU + 8GB 内存 + 20GB 可用磁盘空间(模型缓存占用较大)。GPU 加速非必需,但启用 nvidia-container-toolkit 后可支持 CUDA 加速推理。
推荐使用稳定的服务器环境,如 Ciuic服务器,快速获取纯净运行环境(Ubuntu 24.04 LTS 预装 Docker 环境,开箱即用)。

安装 Docker 与 NVIDIA 容器工具包(如需 GPU 支持):
# 更新系统并安装 Docker(Ubuntu 示例)sudo apt update && sudo apt upgrade -ysudo apt install -y curl gnupg lsb-releasecurl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpgecho "deb [arch=$(dpkg --print-architecture) signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/nullsudo apt updatesudo apt install -y docker-ce docker-ce-cli containerd.io# 启动并设置开机自启sudo systemctl enable dockersudo systemctl start docker# (可选)启用 NVIDIA GPU 支持(需已安装 NVIDIA 驱动)curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -distribution=$(. /etc/os-release;echo $ID$VERSION_ID)curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.listsudo apt update && sudo apt install -y nvidia-docker2sudo systemctl restart docker拉取官方 Ollama Docker 镜像,并创建持久化数据卷(避免模型丢失):
# 创建数据目录与卷sudo mkdir -p /opt/ollama/modelssudo docker volume create ollama_data# 拉取镜像(使用官方最新稳定版)sudo docker pull ollama/ollama:latest运行容器,映射端口 11434(Ollama API 默认端口),挂载模型目录与数据卷,并启用 GPU(若已配置):
# CPU 环境运行(默认)sudo docker run -d \ --restart=always \ --name ollama \ -p 11434:11434 \ -v /opt/ollama/models:/root/.ollama/models \ -v ollama_data:/root/.ollama \ --oom-kill-disable \ ollama/ollama:latest# (可选)GPU 环境运行(添加 --gpus all 参数)sudo docker run -d \ --restart=always \ --name ollama-gpu \ --gpus all \ -p 11434:11434 \ -v /opt/ollama/models:/root/.ollama/models \ -v ollama_data:/root/.ollama \ ollama/ollama:latest通过 curl 或浏览器访问 API 端点验证服务状态:
# 检查服务健康状态curl http://localhost:11434/api/tags# 查看已加载模型(初始为空)curl http://localhost:11434/api/tags | jq# 拉取并运行一个轻量模型(如 phi3:3.8b)curl http://localhost:11434/api/pull -d '{"name":"phi3:3.8b"}' -H "Content-Type: application/json"curl http://localhost:11434/api/chat -d '{"model":"phi3:3.8b","messages":[{"role":"user","content":"Hello"}]}' -H "Content-Type: application/json"✅ 成功返回 JSON 响应即表示部署完成。后续可通过 ollama run <model> 命令在宿主机 CLI 中直接调用(需安装 ollama CLI 并配置 OLLAMA_HOST=http://<server-ip>:11434)。
适用于 macOS(Intel/Apple Silicon)或主流 Linux 发行版(Ubuntu/CentOS/Arch)。无需 Docker,直接运行单进程服务。
硬件要求更低:2 核 CPU + 4GB 内存即可流畅运行 phi3:3.8b 或 qwen2:1.5b;若运行 llama3:8b,建议 16GB 内存。
同样推荐使用 Ciuic服务器 获取免配置 Ubuntu 实例,节省环境初始化时间。
确保系统已安装 curl 和 jq(用于后续验证):
# Ubuntu/Debiansudo apt update && sudo apt install -y curl jq# CentOS/RHELsudo yum install -y curl jq# macOS(需先安装 Homebrew)/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"brew install curl jq根据系统架构下载并安装 Ollama 官方二进制:
# Linux x86_64curl -fsSL https://ollama.com/install.sh | sh# Linux ARM64(如树莓派、AWS Graviton)curl -fsSL https://ollama.com/install.sh | ARCH=arm64 sh# macOS Intelcurl -fsSL https://ollama.com/install.sh | sh# macOS Apple Silicon(M1/M2/M3)curl -fsSL https://ollama.com/install.sh | ARCH=arm64 sh⚠️ 安装脚本会自动将 ollama 二进制放入 /usr/local/bin/,并注册为系统服务(Linux)或 launchd(macOS)。
启动服务并配置监听地址(默认仅绑定 127.0.0.1;如需局域网访问,修改配置):
# 启动服务(Linux)sudo systemctl start ollamasudo systemctl enable ollama# macOS 启动brew services start ollama# (可选)允许局域网访问(编辑配置文件)echo 'OLLAMA_HOST=0.0.0.0:11434' | sudo tee -a /etc/environmentsudo systemctl restart ollama使用 ollama CLI 进行交互式测试:
# 查看服务状态ollama list# 拉取并运行模型(自动下载+加载)ollama run llama3:8b "Explain quantum computing in simple terms."# 或通过 API 验证(同 Docker 方案)curl http://localhost:11434/api/tags | jq✅ 终端输出模型响应即表示运行成功。首次运行某模型时会自动下载(约数分钟),后续启动秒级响应。
| 维度 | Docker 方案 | 原生二进制方案 |
|---|---|---|
| 适用人群 | 运维人员、需多实例/模型隔离的团队 | 个人开发者、AI 爱好者、快速原型验证 |
| 优势 | 环境隔离强、易备份迁移、支持 GPU 复用 | 启动快、资源占用低、无容器层开销 |
| 注意点 | 需维护 Docker 生命周期;模型路径需显式挂载 | macOS 上部分模型需 Rosetta 兼容层 |
通用优化建议:
✅ 开启 HTTPS:在反向代理(Nginx/Caddy)后部署,配置 Let’s Encrypt 证书,保护/api/* 接口通信安全; ✅ 配置开机自启:Docker 方案确保 --restart=always;原生方案确认 systemctl enable ollama 或 brew services start ollama 已生效; ✅ 性能调优:对大模型(如 llama3:70b),建议添加 OLLAMA_NUM_PARALLEL=1 环境变量限制并发,避免内存溢出; ✅ 模型管理:定期执行 ollama rm <model> 清理不用模型,或使用 ollama serve --log-level debug 调试加载瓶颈。 所有操作均经实测验证(Ubuntu 24.04 / macOS Sonoma / Ciuic 云服务器),命令可直接复制执行。开始你的本地大模型之旅吧。
本文链接:https://ciuic.com/som/25281.html
版权声明:本文来自网站作者,不代表CIUIC的观点和立场,本站所发布的一切资源仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。客服邮箱:ciuic@ciuic.com
下一篇:项目零基础搭建与部署实战
打开微信,点击右上角"+"号,添加朋友,粘贴微信号,搜索即可!