Ollama
本地运行大模型的工具,Mac用户首选
简介
Ollama 是一个专注于本地运行大型语言模型的命令行工具和服务器,旨在让用户能够轻松地在自己的电脑上部署和运行各种开源 LLM。它提供了简单的命令行界面来下载、运行和管理模型,是目前最流行的本地 LLM 运行工具之一。
开源项目:GitHub 仓库
主要功能
- 简单命令行:通过简洁的命令下载、运行和管理模型,无需复杂配置。
- 模型库支持:内置模型市场,提供 Llama 2/3、Mistral、Gemma、CodeLlama 等多种模型。
- API 服务:提供 OpenAI 兼容的 REST API,便于其他应用集成。
- GPU 加速:自动识别并利用 NVIDIA 和 Apple Silicon GPU 加速推理。
- 多平台支持:支持 macOS、Linux、Windows 系统。
- 模型自定义支持通过 Modelfile 自定义模型行为和提示词。
- 并发处理:支持多请求并发处理,适合生产环境使用。
适用场景
Ollama 适用于多种场景:本地开发测试——开发者快速测试和调试 LLM 应用;隐私敏感应用——处理敏感数据时完全离线运行;AI 应用后端——为 Web 应用或桌面应用提供本地 LLM 能力;研究和实验——研究人员进行模型实验和评估;个人助手——作为日常使用的 AI 对话工具。
安装与使用
安装 Ollama
# macOS
brew install ollama
# Linux
curl -fsSL https://ollama.ai/install.sh | sh
# Windows
# 访问 https://ollama.com 下载安装包
运行模型
# 拉取并运行模型
ollama run llama3
# 拉取模型(不运行)
ollama pull llama3
# 查看已下载的模型
ollama list
# 删除模型
ollama rm llama3
运行成功后,会进入交互式对话界面。也可以通过 API 调用:
使用 API
# Ollama 默认在 http://localhost:11434 提供 API
# 调用示例
curl http://localhost:11434/api/generate
-d '{"model": "llama3", "prompt": "你好"}'
自定义模型
# 创建 Modelfile
FROM llama3
PARAMETER temperature 0.7
SYSTEM "你是一个有帮助的助手,使用中文回答问题。"
# 创建自定义模型
ollama create my-assistant -f Modelfile
# 运行自定义模型
ollama run my-assistant
同类工具对比
| 工具名称 | 公司/厂商 | 特色 | 适合人群 |
|---|---|---|---|
| Ollama | Ollama Inc. | 命令行工具、简单易用、模型丰富 | 开发者、技术用户 |
| LM Studio | LM Studio Inc. | 图形界面、模型管理专业 | 技术用户、模型研究者 |
| vLLM | 开源社区 | 高性能推理、生产环境首选 | 需要高吞吐量的团队 |
| llama.cpp | 开源社区 | 资源受限环境 |
官网与入口
GitHub:https://github.com/ollama/ollama
使用方式:提供命令行工具安装,支持 macOS、Linux、Windows。可通过命令行直接运行模型,也可启动 API 服务供其他应用调用。
价格与版本
开源版
完全开源免费
所有功能可用
社区支持
所有功能可用
社区支持
Ollama Cloud
云端模型托管
跨设备同步
技术支持
跨设备同步
技术支持
Ollama 本身完全免费使用,模型文件也免费下载,仅需考虑硬件成本
使用技巧
管理磁盘空间
定期使用 ollama prune 清理未使用的模型层,释放磁盘空间。
选择合适模型
根据硬件配置选择模型大小,7B 模型在大多数设备上运行流畅。
作为 API 服务
设置 OLLAMA_HOST=0.0.0.0:11434 可允许外部访问 API。
自定义提示词
使用 Modelfile 定制模型行为,创建专属 AI 助手。
常见问题
硬件Ollama 支持 GPU 加速吗?
支持。Ollama 自动检测 NVIDIA GPU(需要 CUDA)和 Apple Silicon(MPS),并自动使用 GPU 进行推理加速。
模型支持哪些模型?
支持 Llama 2/3、Mistral、Gemma、CodeLlama、Qwen、Yi 等主流开源模型。完整列表可在官网查看。
性能需要什么配置的电脑?
7B 参数模型需要 8GB+ RAM(推荐 16GB);13B 模型需要 16GB+ RAM;33B 模型需要 32GB+ RAM。
部署如何在外网访问?
设置环境变量 OLLAMA_HOST=0.0.0.0:11434,然后通过防火墙放行 11434 端口即可。
小结
Ollama 作为最受欢迎的本地 LLM 运行工具,以其简洁的命令行操作、丰富的模型支持和良好的性能,成为开发者和技术用户部署本地 AI 应用的首选。其简单易用的特性大大降低了本地运行大语言模型的门槛,让每个人都能在自己的电脑上体验 AI 技术的魅力。
立即体验:访问 ollama.com 下载安装包开始使用。
轻量级LLM推理引擎