DeepSeek-V3-AWQ开源模型 - 解决溢出问题，8张80GB GPU高效服务必备

首页

Deepseek V3 AWQ

由 QuixiAI 开发

DeepSeek V3的AWQ量化版本，优化了float16使用时的溢出问题，适合在8张80GB GPU上使用vLLM进行高效服务。

大型语言模型

Transformers

支持多种语言开源协议:MIT #大模型量化 #高吞吐推理 #长上下文支持

下载量 1,512

发布时间 : 1/1/2025

模型简介

DeepSeek V3的AWQ量化版本，主要用于文本生成任务，支持高上下文推理。

模型特点

高效量化

使用AWQ量化技术，优化了float16使用时的溢出问题，提升了推理效率。

高上下文支持

支持高上下文推理，最大上下文长度可达65536。

多GPU支持

支持在8张80GB GPU上使用vLLM进行高效服务。

模型能力

文本生成

高上下文推理

使用案例

文本生成

长文本生成

支持生成长达65536个token的文本，适合长文写作和对话系统。

在高上下文推理中表现优异，推理速度较快。

🚀 DeepSeek V3 AWQ

DeepSeek V3的AWQ量化版本。本项目由 Eric Hartford 和 v2ray 完成量化。此量化版本修改了部分模型代码，以修复使用float16时的溢出问题。

🚀 快速开始

若要使用8张80GB GPU的vLLM进行服务，请使用以下命令：

VLLM_USE_V1=0 VLLM_WORKER_MULTIPROC_METHOD=spawn VLLM_MARLIN_USE_ATOMIC_ADD=1 python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 12345 --max-model-len 65536 --max-seq-len-to-capture 65536 --enable-chunked-prefill --enable-prefix-caching --trust-remote-code --tensor-parallel-size 8 --gpu-memory-utilization 0.95 --served-model-name deepseek-chat --model cognitivecomputations/DeepSeek-V3-AWQ

你可以点击此处下载我为PyTorch 2.6和Python 3.12构建的wheel文件。以下的基准测试就是使用这个wheel文件完成的，它包含 2个PR合并以及针对A100的未优化FlashMLA（仍然比Triton快），这极大地提升了性能。包含A100 FlashMLA的vLLM仓库可以在 LagPixelLOL/vllm@sm80_flashmla 找到，它是 vllm-project/vllm 的一个分支。它使用的A100 FlashMLA基于 LagPixelLOL/FlashMLA@vllm，这是 pzhao-eng/FlashMLA 的一个分支。

📊 每个请求的每秒令牌数（TPS）

GPU \ 批次输入输出	B: 1 I: 2 O: 2K	B: 32 I: 4K O: 256	B: 1 I: 63K O: 2K	预填充
8x H100/H200	61.5	30.1	54.3	4732.2
4x H200	58.4	19.8	53.7	2653.1
8x A100 80GB	46.8	12.8	30.4	2442.4
8x L40S	46.3	内存溢出（OOM）	内存溢出（OOM）	688.5

⚠️ 重要提示

A100配置使用了未优化的FlashMLA实现，仅在高上下文推理时比Triton优越，如果进行优化，速度会更快。
L40S配置不支持FlashMLA，因此使用了Triton实现，这使得在高上下文情况下速度极慢。而且L40S的显存不多，无法处理太多上下文，同时也没有快速的GPU间互连带宽，这使其速度更慢。不建议使用此配置进行服务，因为你必须将上下文限制为 <= 4096，--gpu-memory-utilization 设置为0.98，--max-num-seqs 设置为4。
除L40S外，基准测试中使用的所有类型的GPU均为SXM外形规格。
在低批次大小下，推理速度会比FP8更好，但在高批次大小下会比FP8差，这是低比特量化的特性。
vLLM现在支持AWQ的MLA，你可以仅使用8张80GB GPU以完整上下文长度运行此模型。