vLLM
高性能LLM推理服务框架,业界领先
简介
vLLM 是一个开源的高性能大型语言模型推理服务框架,由 UC Berkeley 等机构开发。它采用了创新的 PagedAttention 技术,实现了业界领先的推理吞吐量和延迟,是生产环境部署 LLM 服务的首选方案之一。
开源项目:GitHub 仓库
主要功能
- PagedAttention:创新的注意力机制优化,大幅减少内存碎片,提升推理效率。
- 高吞吐量:相比传统方案提升 2-5 倍吞吐量,支持大规模并发请求。
- OpenAI 兼容 API:完全兼容 OpenAI API 接口,便于迁移和集成。
- 连续批处理:支持动态连续批处理,优化 GPU 利用率。
- 多模型支持:支持 Llama、Qwen、Mistral、Mixtral 等主流开源模型。
- 分布式推理:支持张量并行,可部署在多 GPU 集群上。
- 量化支持:支持 AWQ、GPTQ 等量化技术,降低推理成本。
适用场景
vLLM 适用于多种场景:生产级 API 服务——为企业提供高可用的 LLM API 服务;大规模并发——需要处理大量并发请求的场景;成本优化——通过高吞吐量和量化降低推理成本;云服务部署——在云服务器上部署 LLM 服务;内部平台——构建企业内部的大模型服务平台。
安装与使用
安装 vLLM
# 使用 pip 安装(需要 CUDA 支持)
pip install vllm
# 或从源码安装
git clone https://github.com/vllm-project/vllm.git
cd vllm
pip install -e .
启动 API 服务器
# 启动 OpenAI 兼容 API 服务器
python -m vllm.entrypoints.openai.api_server
--model meta-llama/Llama-2-7b-chat-hf
--host 0.0.0.0
--port 8000
使用 API
# 调用示例
curl http://localhost:8000/v1/chat/completions
-H "Content-Type: application/json"
-d '{
"model": "meta-llama/Llama-2-7b-chat-hf",
"messages": [{"role": "user", "content": "你好"}]
}'
Docker 部署
# 使用 Docker 运行
docker run --runtime nvidia
-e NGC_API_KEY=$NGC_API_KEY
-p 8000:8000
-v ~/.cache/huggingface:/root/.cache/huggingface
nvcr.io/nvidia/pytorch:23.10-py3
python -m vllm.entrypoints.openai.api_server
--model meta-llama/Llama-2-7b-chat-hf
同类工具对比
| 工具名称 | 公司/厂商 | 特色 | 适合人群 |
|---|---|---|---|
| vLLM | UC Berkeley & 社区 | 高性能、PagedAttention、生产环境首选 | 需要高吞吐量的团队 |
| TensorRT-LLM | NVIDIA | NVIDIA GPU 深度优化、极致性能 | 有 NVIDIA 硬件的团队 |
| llama.cpp | 开源社区 | 纯 C++ 实现、资源占用低 | 资源受限环境 |
| TGI | Hugging Face | Hub 深度集成、简单易用 | Hugging Face 用户 |
官网与入口
GitHub:https://github.com/vllm-project/vllm
使用方式:通过 pip 安装或 Docker 部署,启动 OpenAI 兼容 API 服务器。需要 NVIDIA GPU 和 CUDA 环境支持。
价格与版本
开源版
完全开源免费
所有功能可用
社区支持
所有功能可用
社区支持
企业支持
NVIDIA 企业支持
优化服务
商业许可
优化服务
商业许可
vLLM 本身完全免费,但需要自备 GPU 服务器资源
使用技巧
启用 Tensor 并行
多 GPU 环境下使用 --tensor-parallel-size 参数提升性能。
使用量化模型
AWQ/GPTQ 量化模型可大幅降低显存占用和提升吞吐量。
调优批处理大小
根据 GPU 内存和请求特点调整 --max-num-batched-tokens。
监控服务状态
使用 Prometheus 指标监控服务性能和资源使用情况。
常见问题
硬件需要什么配置的 GPU?
至少需要 NVIDIA GPU(支持 CUDA),推荐使用 A100、H100 等高端 GPU 以获得最佳性能。
性能vLLM 比传统方案快多少?
相比传统方案,vLLM 可提升 2-5 倍吞吐量,具体取决于模型和请求特点。
模型支持哪些模型?
支持 Llama、Qwen、Yi、Mistral、Mixtral、ChatGLM 等主流开源模型,完整列表见官方文档。
小结
vLLM 作为业界领先的高性能 LLM 推理框架,以其创新的 PagedAttention 技术和卓越的推理性能,成为生产环境部署大语言模型服务的首选方案。它完美平衡了性能和易用性,是构建企业级 AI 应用基础设施的理想选择。
立即体验:访问 vllm.ai 查看官方文档开始部署。
开源ChatGPT界面,可本地部署