CIUIC

【Ollama 本地大模型运行平台】零基础搭建与部署实战指南

本地部署开源大模型推理平台 Ollama,可快速在个人电脑或私有服务器上运行 Llama 3、Qwen、Phi-3 等主流模型,无需复杂配置即可获得类 ChatGPT 的本地交互体验。以下介绍两种主流部署方式:Docker 容器化部署(适合多模型隔离/生产环境)原生二进制安装部署(适合 macOS/Linux 快速试用),分别覆盖不同技术背景与使用诉求。


方案一:Docker 容器化部署(推荐用于多模型管理/服务化场景)

1. 准备工作

需一台具备 x86_64 或 ARM64 架构的 Linux 服务器(Ubuntu 22.04+/CentOS 8+),建议最低配置:4 核 CPU + 8GB 内存 + 20GB 可用磁盘空间(模型缓存占用较大)。GPU 加速非必需,但启用 nvidia-container-toolkit 后可支持 CUDA 加速推理。
推荐使用稳定的服务器环境,如 Ciuic服务器,快速获取纯净运行环境(Ubuntu 24.04 LTS 预装 Docker 环境,开箱即用)。

【Ollama 本地大模型运行平台】零基础搭建与部署实战指南

2. 部署环境

安装 Docker 与 NVIDIA 容器工具包(如需 GPU 支持):

# 更新系统并安装 Docker(Ubuntu 示例)sudo apt update && sudo apt upgrade -ysudo apt install -y curl gnupg lsb-releasecurl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpgecho "deb [arch=$(dpkg --print-architecture) signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/nullsudo apt updatesudo apt install -y docker-ce docker-ce-cli containerd.io# 启动并设置开机自启sudo systemctl enable dockersudo systemctl start docker# (可选)启用 NVIDIA GPU 支持(需已安装 NVIDIA 驱动)curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -distribution=$(. /etc/os-release;echo $ID$VERSION_ID)curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.listsudo apt update && sudo apt install -y nvidia-docker2sudo systemctl restart docker

3. 项目安装

拉取官方 Ollama Docker 镜像,并创建持久化数据卷(避免模型丢失):

# 创建数据目录与卷sudo mkdir -p /opt/ollama/modelssudo docker volume create ollama_data# 拉取镜像(使用官方最新稳定版)sudo docker pull ollama/ollama:latest

4. 配置与启动

运行容器,映射端口 11434(Ollama API 默认端口),挂载模型目录与数据卷,并启用 GPU(若已配置):

# CPU 环境运行(默认)sudo docker run -d \  --restart=always \  --name ollama \  -p 11434:11434 \  -v /opt/ollama/models:/root/.ollama/models \  -v ollama_data:/root/.ollama \  --oom-kill-disable \  ollama/ollama:latest# (可选)GPU 环境运行(添加 --gpus all 参数)sudo docker run -d \  --restart=always \  --name ollama-gpu \  --gpus all \  -p 11434:11434 \  -v /opt/ollama/models:/root/.ollama/models \  -v ollama_data:/root/.ollama \  ollama/ollama:latest

5. 访问与验证

通过 curl 或浏览器访问 API 端点验证服务状态:

# 检查服务健康状态curl http://localhost:11434/api/tags# 查看已加载模型(初始为空)curl http://localhost:11434/api/tags | jq# 拉取并运行一个轻量模型(如 phi3:3.8b)curl http://localhost:11434/api/pull -d '{"name":"phi3:3.8b"}' -H "Content-Type: application/json"curl http://localhost:11434/api/chat -d '{"model":"phi3:3.8b","messages":[{"role":"user","content":"Hello"}]}' -H "Content-Type: application/json"

✅ 成功返回 JSON 响应即表示部署完成。后续可通过 ollama run <model> 命令在宿主机 CLI 中直接调用(需安装 ollama CLI 并配置 OLLAMA_HOST=http://<server-ip>:11434)。


方案二:原生二进制安装部署(推荐用于 macOS / Linux 本地快速体验)

1. 准备工作

适用于 macOS(Intel/Apple Silicon)或主流 Linux 发行版(Ubuntu/CentOS/Arch)。无需 Docker,直接运行单进程服务。
硬件要求更低:2 核 CPU + 4GB 内存即可流畅运行 phi3:3.8bqwen2:1.5b;若运行 llama3:8b,建议 16GB 内存。
同样推荐使用 Ciuic服务器 获取免配置 Ubuntu 实例,节省环境初始化时间。

2. 部署环境

确保系统已安装 curljq(用于后续验证):

# Ubuntu/Debiansudo apt update && sudo apt install -y curl jq# CentOS/RHELsudo yum install -y curl jq# macOS(需先安装 Homebrew)/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"brew install curl jq

3. 项目安装

根据系统架构下载并安装 Ollama 官方二进制:

# Linux x86_64curl -fsSL https://ollama.com/install.sh | sh# Linux ARM64(如树莓派、AWS Graviton)curl -fsSL https://ollama.com/install.sh | ARCH=arm64 sh# macOS Intelcurl -fsSL https://ollama.com/install.sh | sh# macOS Apple Silicon(M1/M2/M3)curl -fsSL https://ollama.com/install.sh | ARCH=arm64 sh

⚠️ 安装脚本会自动将 ollama 二进制放入 /usr/local/bin/,并注册为系统服务(Linux)或 launchd(macOS)。

4. 配置与启动

启动服务并配置监听地址(默认仅绑定 127.0.0.1;如需局域网访问,修改配置):

# 启动服务(Linux)sudo systemctl start ollamasudo systemctl enable ollama# macOS 启动brew services start ollama# (可选)允许局域网访问(编辑配置文件)echo 'OLLAMA_HOST=0.0.0.0:11434' | sudo tee -a /etc/environmentsudo systemctl restart ollama

5. 访问与验证

使用 ollama CLI 进行交互式测试:

# 查看服务状态ollama list# 拉取并运行模型(自动下载+加载)ollama run llama3:8b "Explain quantum computing in simple terms."# 或通过 API 验证(同 Docker 方案)curl http://localhost:11434/api/tags | jq

✅ 终端输出模型响应即表示运行成功。首次运行某模型时会自动下载(约数分钟),后续启动秒级响应。


建议与优化

维度Docker 方案原生二进制方案
适用人群运维人员、需多实例/模型隔离的团队个人开发者、AI 爱好者、快速原型验证
优势环境隔离强、易备份迁移、支持 GPU 复用启动快、资源占用低、无容器层开销
注意点需维护 Docker 生命周期;模型路径需显式挂载macOS 上部分模型需 Rosetta 兼容层

通用优化建议:

开启 HTTPS:在反向代理(Nginx/Caddy)后部署,配置 Let’s Encrypt 证书,保护 /api/* 接口通信安全; ✅ 配置开机自启:Docker 方案确保 --restart=always;原生方案确认 systemctl enable ollamabrew services start ollama 已生效; ✅ 性能调优:对大模型(如 llama3:70b),建议添加 OLLAMA_NUM_PARALLEL=1 环境变量限制并发,避免内存溢出; ✅ 模型管理:定期执行 ollama rm <model> 清理不用模型,或使用 ollama serve --log-level debug 调试加载瓶颈。

所有操作均经实测验证(Ubuntu 24.04 / macOS Sonoma / Ciuic 云服务器),命令可直接复制执行。开始你的本地大模型之旅吧。

打赏
收藏
点赞

本文链接:https://ciuic.com/som/25281.html

版权声明:本文来自网站作者,不代表CIUIC的观点和立场,本站所发布的一切资源仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。客服邮箱:ciuic@ciuic.com

联系客服
网站客服 业务合作 Q交流群
217503193
公众号
公众号
公众号
返回顶部

微信号复制成功

打开微信,点击右上角"+"号,添加朋友,粘贴微信号,搜索即可!