vLLM
vLLM

高性能LLM推理服务框架,业界领先

简介

vLLM 是一个开源的高性能大型语言模型推理服务框架,由 UC Berkeley 等机构开发。它采用了创新的 PagedAttention 技术,实现了业界领先的推理吞吐量和延迟,是生产环境部署 LLM 服务的首选方案之一。

开源项目:GitHub 仓库

主要功能

  • PagedAttention:创新的注意力机制优化,大幅减少内存碎片,提升推理效率。
  • 高吞吐量:相比传统方案提升 2-5 倍吞吐量,支持大规模并发请求。
  • OpenAI 兼容 API:完全兼容 OpenAI API 接口,便于迁移和集成。
  • 连续批处理:支持动态连续批处理,优化 GPU 利用率。
  • 多模型支持:支持 Llama、Qwen、Mistral、Mixtral 等主流开源模型。
  • 分布式推理:支持张量并行,可部署在多 GPU 集群上。
  • 量化支持:支持 AWQ、GPTQ 等量化技术,降低推理成本。

适用场景

vLLM 适用于多种场景:生产级 API 服务——为企业提供高可用的 LLM API 服务;大规模并发——需要处理大量并发请求的场景;成本优化——通过高吞吐量和量化降低推理成本;云服务部署——在云服务器上部署 LLM 服务;内部平台——构建企业内部的大模型服务平台。

安装与使用

安装 vLLM

# 使用 pip 安装(需要 CUDA 支持)
pip install vllm

# 或从源码安装
git clone https://github.com/vllm-project/vllm.git
cd vllm
pip install -e .

启动 API 服务器

# 启动 OpenAI 兼容 API 服务器
python -m vllm.entrypoints.openai.api_server 
    --model meta-llama/Llama-2-7b-chat-hf 
    --host 0.0.0.0 
    --port 8000

使用 API

# 调用示例
curl http://localhost:8000/v1/chat/completions 
  -H "Content-Type: application/json" 
  -d '{
    "model": "meta-llama/Llama-2-7b-chat-hf",
    "messages": [{"role": "user", "content": "你好"}]
  }'

Docker 部署

# 使用 Docker 运行
docker run --runtime nvidia 
    -e NGC_API_KEY=$NGC_API_KEY 
    -p 8000:8000 
    -v ~/.cache/huggingface:/root/.cache/huggingface 
    nvcr.io/nvidia/pytorch:23.10-py3 
    python -m vllm.entrypoints.openai.api_server 
        --model meta-llama/Llama-2-7b-chat-hf

同类工具对比

工具名称 公司/厂商 特色 适合人群
vLLM UC Berkeley & 社区 高性能、PagedAttention、生产环境首选 需要高吞吐量的团队
TensorRT-LLM NVIDIA NVIDIA GPU 深度优化、极致性能 有 NVIDIA 硬件的团队
llama.cpp 开源社区 纯 C++ 实现、资源占用低 资源受限环境
TGI Hugging Face Hub 深度集成、简单易用 Hugging Face 用户

官网与入口

官网:https://vllm.ai

GitHub:https://github.com/vllm-project/vllm

使用方式:通过 pip 安装或 Docker 部署,启动 OpenAI 兼容 API 服务器。需要 NVIDIA GPU 和 CUDA 环境支持。

价格与版本

开源版
完全开源免费
所有功能可用
社区支持
企业支持
NVIDIA 企业支持
优化服务
商业许可

vLLM 本身完全免费,但需要自备 GPU 服务器资源

使用技巧

启用 Tensor 并行

多 GPU 环境下使用 --tensor-parallel-size 参数提升性能。

📦

使用量化模型

AWQ/GPTQ 量化模型可大幅降低显存占用和提升吞吐量。

🔧

调优批处理大小

根据 GPU 内存和请求特点调整 --max-num-batched-tokens。

📊

监控服务状态

使用 Prometheus 指标监控服务性能和资源使用情况。

常见问题

硬件需要什么配置的 GPU?
至少需要 NVIDIA GPU(支持 CUDA),推荐使用 A100、H100 等高端 GPU 以获得最佳性能。
性能vLLM 比传统方案快多少?
相比传统方案,vLLM 可提升 2-5 倍吞吐量,具体取决于模型和请求特点。
模型支持哪些模型?
支持 Llama、Qwen、Yi、Mistral、Mixtral、ChatGLM 等主流开源模型,完整列表见官方文档。

小结

vLLM 作为业界领先的高性能 LLM 推理框架,以其创新的 PagedAttention 技术和卓越的推理性能,成为生产环境部署大语言模型服务的首选方案。它完美平衡了性能和易用性,是构建企业级 AI 应用基础设施的理想选择。

立即体验:访问 vllm.ai 查看官方文档开始部署。

Relevant Sites