🚀 DeepSeek-R1-0528-AWQ
DeepSeek R1 0528的AWQ量化模型

📖 [详细文档] • 🚀 [快速开始] • 💻 [使用示例]
🚀 快速开始
若要使用8块80GB GPU的vLLM进行服务,请使用以下命令:
VLLM_USE_V1=0 VLLM_WORKER_MULTIPROC_METHOD=spawn VLLM_MARLIN_USE_ATOMIC_ADD=1 python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 12345 --max-model-len 65536 --max-seq-len-to-capture 65536 --enable-chunked-prefill --enable-prefix-caching --trust-remote-code --tensor-parallel-size 8 --gpu-memory-utilization 0.95 --served-model-name deepseek-chat --model cognitivecomputations/DeepSeek-V3-0324-AWQ
你可以点击此处下载我为PyTorch 2.6、Python 3.12构建的轮子,下面的基准测试就是使用这个轮子完成的。它包含2次PR合并,并且针对A100有一个未优化的FlashMLA(仍然比Triton快),这极大地提升了性能。包含A100 FlashMLA的vLLM仓库可以在LagPixelLOL/vllm@sm80_flashmla找到,它是 vllm-project/vllm的一个分支。它使用的A100 FlashMLA基于LagPixelLOL/FlashMLA@vllm,这是 pzhao-eng/FlashMLA 的一个分支。
✨ 主要特性
- 本量化版本修改了部分模型代码,修复了使用float16时的溢出问题。
- 支持使用vLLM在8块80GB GPU上以全上下文长度运行该模型。
📦 安装指南
文档中未提及相关信息,你可参考模型的官方文档获取安装的具体步骤。
💻 使用示例
基础用法
使用上述快速开始中的命令启动服务即可开始使用该模型:
VLLM_USE_V1=0 VLLM_WORKER_MULTIPROC_METHOD=spawn VLLM_MARLIN_USE_ATOMIC_ADD=1 python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 12345 --max-model-len 65536 --max-seq-len-to-capture 65536 --enable-chunked-prefill --enable-prefix-caching --trust-remote-code --tensor-parallel-size 8 --gpu-memory-utilization 0.95 --served-model-name deepseek-chat --model cognitivecomputations/DeepSeek-V3-0324-AWQ
📚 详细文档
TPS 每个请求情况
GPU \ 批次 输入 输出 |
批次: 1 输入: 2 输出: 2K |
批次: 32 输入: 4K 输出: 256 |
批次: 1 输入: 63K 输出: 2K |
预填充 |
8x H100/H200 |
61.5 |
30.1 |
54.3 |
4732.2 |
4x H200 |
58.4 |
19.8 |
53.7 |
2653.1 |
8x A100 80GB |
46.8 |
12.8 |
30.4 |
2442.4 |
8x L40S |
46.3 |
内存溢出 |
内存溢出 |
688.5 |
注意事项
⚠️ 重要提示
- A100配置使用了未优化的FlashMLA实现,仅在高上下文推理时比Triton更优,若进行优化会更快。
- L40S配置不支持FlashMLA,因此使用了Triton实现,这使得在高上下文情况下性能极慢。而且L40S的显存不多,实际上无法处理太多上下文,并且GPU之间的互连带宽也不快,这使其性能更慢。不建议使用此配置进行服务,因为你必须将上下文限制在 <= 4096,
--gpu-memory-utilization
设置为0.98,--max-num-seqs
设置为4。
- 除L40S外,基准测试中使用的所有类型的GPU均为SXM封装形式。
- 在低批次大小下,推理速度会比FP8更好,但在高批次大小下会比FP8更差,这是低比特量化的特性。
- vLLM现在支持AWQ的MLA,你可以仅使用8块80GB GPU以全上下文长度运行此模型。
🔧 技术细节
模型基础信息
属性 |
详情 |
许可证 |
MIT |
支持语言 |
英文、中文 |
基础模型 |
deepseek-ai/DeepSeek-R1-0528 |
任务类型 |
文本生成 |
库名称 |
transformers |
🤝 贡献指南
文档中未提及相关信息,你可关注模型的官方仓库获取贡献的相关指引。
📄 许可证
本项目采用MIT许可证。