DeepSeek-R1-0528-AWQ开源模型——支持多GPU实现全上下文长度高效运行

首页

Deepseek R1 0528 AWQ

由 cognitivecomputations 开发

DeepSeek R1 0528的AWQ量化模型，支持使用vLLM在8块80GB GPU上以全上下文长度运行。

大型语言模型

Transformers

支持多种语言开源协议:MIT #长上下文推理 #AWQ量化 #多GPU并行

下载量 145

发布时间 : 6/1/2025

模型简介

这是一个经过AWQ量化的DeepSeek-R1-0528模型版本，修复了使用float16时的溢出问题，优化了在vLLM框架下的运行效率。

模型特点

AWQ量化优化

修改了部分模型代码，修复了使用float16时的溢出问题，提高了模型运行效率。

全上下文长度支持

支持使用vLLM在8块80GB GPU上以全上下文长度运行该模型。

高性能推理

针对A100 GPU优化了FlashMLA实现，在高上下文推理时比Triton更优。

模型能力

文本生成

长文本处理

多语言支持

使用案例

文本生成

长文本生成

支持长达63K输入和2K输出的文本生成任务。

在8x H100/H200配置下达到54.3 TPS

批量处理

支持批量处理32个请求，每个请求4K输入和256输出。

在8x H100/H200配置下达到30.1 TPS

🚀 DeepSeek-R1-0528-AWQ

DeepSeek R1 0528的AWQ量化版本。本项目由 Eric Hartford 和 v2ray 完成量化。此次量化计算由 Hot Aisle 慷慨赞助，感谢其对社区的支持！

本量化版本修改了部分模型代码，以修复使用float16时的溢出问题。

🚀 快速开始

若要使用vLLM和8张80GB GPU来部署该模型，可使用以下命令：

VLLM_USE_V1=0 VLLM_WORKER_MULTIPROC_METHOD=spawn VLLM_MARLIN_USE_ATOMIC_ADD=1 python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 12345 --max-model-len 65536 --max-seq-len-to-capture 65536 --enable-chunked-prefill --enable-prefix-caching --trust-remote-code --tensor-parallel-size 8 --gpu-memory-utilization 0.95 --served-model-name deepseek-chat --model cognitivecomputations/DeepSeek-V3-0324-AWQ

你可以点击此处下载我为PyTorch 2.6和Python 3.12构建的wheel文件。下面的基准测试就是使用这个wheel文件完成的，它包含 2个PR合并以及一个未优化的适用于A100的FlashMLA（仍然比Triton快），这大大提升了性能。包含A100 FlashMLA的vLLM仓库可在 LagPixelLOL/vllm@sm80_flashmla 找到，它是 vllm-project/vllm 的一个分支。它使用的A100 FlashMLA基于 LagPixelLOL/FlashMLA@vllm，这是 pzhao-eng/FlashMLA 的一个分支。

💻 使用示例

基础用法

# 使用vLLM和8张80GB GPU部署模型
VLLM_USE_V1=0 VLLM_WORKER_MULTIPROC_METHOD=spawn VLLM_MARLIN_USE_ATOMIC_ADD=1 python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 12345 --max-model-len 65536 --max-seq-len-to-capture 65536 --enable-chunked-prefill --enable-prefix-caching --trust-remote-code --tensor-parallel-size 8 --gpu-memory-utilization 0.95 --served-model-name deepseek-chat --model cognitivecomputations/DeepSeek-V3-0324-AWQ

📚 详细文档

每个请求的每秒令牌数（TPS）

GPU \ 批次输入输出	B: 1 I: 2 O: 2K	B: 32 I: 4K O: 256	B: 1 I: 63K O: 2K	预填充
8x H100/H200	61.5	30.1	54.3	4732.2
4x H200	58.4	19.8	53.7	2653.1
8x A100 80GB	46.8	12.8	30.4	2442.4
8x L40S	46.3	内存溢出（OOM）	内存溢出（OOM）	688.5

注意事项

⚠️ 重要提示

A100配置使用的是未优化的FlashMLA实现，仅在高上下文推理时比Triton更优，若进行优化，速度会更快。

L40S配置不支持FlashMLA，因此使用了Triton实现，这使得在高上下文情况下速度极慢。而且L40S的显存不多，无法处理太多上下文，同时它也没有快速的GPU间互连带宽，这进一步降低了速度。不建议使用此配置进行服务，因为你必须将上下文限制为 <= 4096，--gpu-memory-utilization 设为0.98，--max-num-seqs 设为4。

除L40S外，基准测试中使用的所有类型的GPU均为SXM外形规格。

在低批次大小下，推理速度会比FP8更好，但在高批次大小下会比FP8更差，这是低比特量化的特性。

vLLM现在支持AWQ的MLA，你可以仅使用8张80GB GPU以完整上下文长度运行此模型。