Ollama
Ollama

本地运行大模型的工具,Mac用户首选

简介

Ollama 是一个专注于本地运行大型语言模型的命令行工具和服务器,旨在让用户能够轻松地在自己的电脑上部署和运行各种开源 LLM。它提供了简单的命令行界面来下载、运行和管理模型,是目前最流行的本地 LLM 运行工具之一。

开源项目:GitHub 仓库

主要功能

  • 简单命令行:通过简洁的命令下载、运行和管理模型,无需复杂配置。
  • 模型库支持:内置模型市场,提供 Llama 2/3、Mistral、Gemma、CodeLlama 等多种模型。
  • API 服务:提供 OpenAI 兼容的 REST API,便于其他应用集成。
  • GPU 加速:自动识别并利用 NVIDIA 和 Apple Silicon GPU 加速推理。
  • 多平台支持:支持 macOS、Linux、Windows 系统。
  • 模型自定义支持通过 Modelfile 自定义模型行为和提示词。
  • 并发处理:支持多请求并发处理,适合生产环境使用。

适用场景

Ollama 适用于多种场景:本地开发测试——开发者快速测试和调试 LLM 应用;隐私敏感应用——处理敏感数据时完全离线运行;AI 应用后端——为 Web 应用或桌面应用提供本地 LLM 能力;研究和实验——研究人员进行模型实验和评估;个人助手——作为日常使用的 AI 对话工具。

安装与使用

安装 Ollama

# macOS
brew install ollama

# Linux
curl -fsSL https://ollama.ai/install.sh | sh

# Windows
# 访问 https://ollama.com 下载安装包

运行模型

# 拉取并运行模型
ollama run llama3

# 拉取模型(不运行)
ollama pull llama3

# 查看已下载的模型
ollama list

# 删除模型
ollama rm llama3

运行成功后,会进入交互式对话界面。也可以通过 API 调用:

使用 API

# Ollama 默认在 http://localhost:11434 提供 API

# 调用示例
curl http://localhost:11434/api/generate 
  -d '{"model": "llama3", "prompt": "你好"}'

自定义模型

# 创建 Modelfile
FROM llama3
PARAMETER temperature 0.7
SYSTEM "你是一个有帮助的助手,使用中文回答问题。"

# 创建自定义模型
ollama create my-assistant -f Modelfile

# 运行自定义模型
ollama run my-assistant

同类工具对比

  • 纯 C++ 实现、资源占用低
  • 工具名称 公司/厂商 特色 适合人群
    Ollama Ollama Inc. 命令行工具、简单易用、模型丰富 开发者、技术用户
    LM Studio LM Studio Inc. 图形界面、模型管理专业 技术用户、模型研究者
    vLLM 开源社区 高性能推理、生产环境首选 需要高吞吐量的团队
    llama.cpp 开源社区 资源受限环境

    官网与入口

    官网:https://ollama.com

    GitHub:https://github.com/ollama/ollama

    使用方式:提供命令行工具安装,支持 macOS、Linux、Windows。可通过命令行直接运行模型,也可启动 API 服务供其他应用调用。

    价格与版本

    开源版
    完全开源免费
    所有功能可用
    社区支持
    Ollama Cloud
    云端模型托管
    跨设备同步
    技术支持

    Ollama 本身完全免费使用,模型文件也免费下载,仅需考虑硬件成本

    使用技巧

    💾

    管理磁盘空间

    定期使用 ollama prune 清理未使用的模型层,释放磁盘空间。

    选择合适模型

    根据硬件配置选择模型大小,7B 模型在大多数设备上运行流畅。

    🔌

    作为 API 服务

    设置 OLLAMA_HOST=0.0.0.0:11434 可允许外部访问 API。

    🎨

    自定义提示词

    使用 Modelfile 定制模型行为,创建专属 AI 助手。

    常见问题

    硬件Ollama 支持 GPU 加速吗?
    支持。Ollama 自动检测 NVIDIA GPU(需要 CUDA)和 Apple Silicon(MPS),并自动使用 GPU 进行推理加速。
    模型支持哪些模型?
    支持 Llama 2/3、Mistral、Gemma、CodeLlama、Qwen、Yi 等主流开源模型。完整列表可在官网查看。
    性能需要什么配置的电脑?
    7B 参数模型需要 8GB+ RAM(推荐 16GB);13B 模型需要 16GB+ RAM;33B 模型需要 32GB+ RAM。
    部署如何在外网访问?
    设置环境变量 OLLAMA_HOST=0.0.0.0:11434,然后通过防火墙放行 11434 端口即可。

    小结

    Ollama 作为最受欢迎的本地 LLM 运行工具,以其简洁的命令行操作、丰富的模型支持和良好的性能,成为开发者和技术用户部署本地 AI 应用的首选。其简单易用的特性大大降低了本地运行大语言模型的门槛,让每个人都能在自己的电脑上体验 AI 技术的魅力。

    立即体验:访问 ollama.com 下载安装包开始使用。

    Relevant Sites