vLLM | 墨鱼AI

简介

vLLM 是一个开源的高性能大型语言模型推理服务框架，由 UC Berkeley 等机构开发。它采用了创新的 PagedAttention 技术，实现了业界领先的推理吞吐量和延迟，是生产环境部署 LLM 服务的首选方案之一。

主要功能

PagedAttention：创新的注意力机制优化，大幅减少内存碎片，提升推理效率。
高吞吐量：相比传统方案提升 2-5 倍吞吐量，支持大规模并发请求。
OpenAI 兼容 API：完全兼容 OpenAI API 接口，便于迁移和集成。
连续批处理：支持动态连续批处理，优化 GPU 利用率。
多模型支持：支持 Llama、Qwen、Mistral、Mixtral 等主流开源模型。
分布式推理：支持张量并行，可部署在多 GPU 集群上。
量化支持：支持 AWQ、GPTQ 等量化技术，降低推理成本。

适用场景

vLLM 适用于多种场景：生产级 API 服务——为企业提供高可用的 LLM API 服务；大规模并发——需要处理大量并发请求的场景；成本优化——通过高吞吐量和量化降低推理成本；云服务部署——在云服务器上部署 LLM 服务；内部平台——构建企业内部的大模型服务平台。

安装与使用

安装 vLLM

# 使用 pip 安装（需要 CUDA 支持）
pip install vllm

# 或从源码安装
git clone https://github.com/vllm-project/vllm.git
cd vllm
pip install -e .

启动 API 服务器

# 启动 OpenAI 兼容 API 服务器
python -m vllm.entrypoints.openai.api_server 
    --model meta-llama/Llama-2-7b-chat-hf 
    --host 0.0.0.0 
    --port 8000

使用 API

# 调用示例
curl http://localhost:8000/v1/chat/completions 
  -H "Content-Type: application/json" 
  -d '{
    "model": "meta-llama/Llama-2-7b-chat-hf",
    "messages": [{"role": "user", "content": "你好"}]
  }'

Docker 部署

# 使用 Docker 运行
docker run --runtime nvidia 
    -e NGC_API_KEY=$NGC_API_KEY 
    -p 8000:8000 
    -v ~/.cache/huggingface:/root/.cache/huggingface 
    nvcr.io/nvidia/pytorch:23.10-py3 
    python -m vllm.entrypoints.openai.api_server 
        --model meta-llama/Llama-2-7b-chat-hf

工具名称	公司/厂商	特色	适合人群
vLLM	UC Berkeley & 社区	高性能、PagedAttention、生产环境首选	需要高吞吐量的团队
TensorRT-LLM	NVIDIA	NVIDIA GPU 深度优化、极致性能	有 NVIDIA 硬件的团队
llama.cpp	开源社区	纯 C++ 实现、资源占用低	资源受限环境
TGI	Hugging Face	Hub 深度集成、简单易用	Hugging Face 用户

官网与入口

官网：https://vllm.ai

GitHub：https://github.com/vllm-project/vllm

使用方式：通过 pip 安装或 Docker 部署，启动 OpenAI 兼容 API 服务器。需要 NVIDIA GPU 和 CUDA 环境支持。

价格与版本

开源版

完全开源免费
所有功能可用
社区支持

企业支持

NVIDIA 企业支持
优化服务
商业许可

vLLM 本身完全免费，但需要自备 GPU 服务器资源

使用技巧

⚡

启用 Tensor 并行

多 GPU 环境下使用 --tensor-parallel-size 参数提升性能。

📦

使用量化模型

AWQ/GPTQ 量化模型可大幅降低显存占用和提升吞吐量。

🔧

调优批处理大小

根据 GPU 内存和请求特点调整 --max-num-batched-tokens。

📊

监控服务状态

使用 Prometheus 指标监控服务性能和资源使用情况。

常见问题

硬件需要什么配置的 GPU？

至少需要 NVIDIA GPU（支持 CUDA），推荐使用 A100、H100 等高端 GPU 以获得最佳性能。

性能vLLM 比传统方案快多少？

相比传统方案，vLLM 可提升 2-5 倍吞吐量，具体取决于模型和请求特点。

模型支持哪些模型？

支持 Llama、Qwen、Yi、Mistral、Mixtral、ChatGLM 等主流开源模型，完整列表见官方文档。

小结

vLLM 作为业界领先的高性能 LLM 推理框架，以其创新的 PagedAttention 技术和卓越的推理性能，成为生产环境部署大语言模型服务的首选方案。它完美平衡了性能和易用性，是构建企业级 AI 应用基础设施的理想选择。

立即体验：访问 vllm.ai 查看官方文档开始部署。

简介