许可证: mit
语言:
- 英文
- 中文
基础模型:
- deepseek-ai/DeepSeek-R1
任务标签: 文本生成
库名称: transformers
DeepSeek R1 AWQ量化版
DeepSeek R1模型的AWQ量化版本。
由Eric Hartford和v2ray完成量化。
本次量化修改了部分模型代码,修复了使用float16时的溢出问题。
使用8块80GB GPU通过vLLM部署时,请运行以下命令:
VLLM_USE_V1=0 VLLM_WORKER_MULTIPROC_METHOD=spawn VLLM_MARLIN_USE_ATOMIC_ADD=1 python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 12345 --max-model-len 65536 --max-seq-len-to-capture 65536 --enable-chunked-prefill --enable-prefix-caching --trust-remote-code --tensor-parallel-size 8 --gpu-memory-utilization 0.95 --served-model-name deepseek-reasoner --model cognitivecomputations/DeepSeek-R1-AWQ
您可以通过此链接下载我为PyTorch 2.6和Python 3.12构建的wheel包,下方基准测试即使用此包完成。该wheel包含2个PR合并以及针对A100的未优化FlashMLA实现(仍快于Triton),显著提升了性能。使用的vLLM代码库位于LagPixelLOL/vllm@sm80_flashmla,这是vllm-project/vllm的一个分支。其所用的A100 FlashMLA基于LagPixelLOL/FlashMLA@vllm实现,后者是pzhao-eng/FlashMLA的分支。
单请求TPS性能
GPU类型 \ 批次输入输出 |
B:1 I:2 O:2K |
B:32 I:4K O:256 |
B:1 I:63K O:2K |
预填充 |
8块H100/H200 |
61.5 |
30.1 |
54.3 |
4732.2 |
4块H200 |
58.4 |
19.8 |
53.7 |
2653.1 |
8块A100 80GB |
46.8 |
12.8 |
30.4 |
2442.4 |
8块L40S |
46.3 |
内存不足 |
内存不足 |
688.5 |
注意事项:
- A100配置使用未优化的FlashMLA实现,仅在高上下文推理时优于Triton,优化后速度会更快
- L40S配置不支持FlashMLA,因此使用Triton实现,导致高上下文时极慢。且L40S显存有限,实际无法处理过高上下文,其GPU间互联带宽也较低。不建议使用此配置部署,必须限制上下文长度<=4096,设置
--gpu-memory-utilization
为0.98,且--max-num-seqs
为4
- 基准测试中除L40S外,所有GPU均为SXM规格
- 低批量时推理速度优于FP8,高批量时劣于FP8,这是低位量化的固有特性
- vLLM现已支持AWQ的MLA,您可在仅8块80GB GPU上运行完整上下文长度的本模型