QwQ-32B-INT8-W8A8开源模型 - 优化性能助力各场景高效使用，免费部署

首页

Qwq 32B INT8 W8A8

由 ospatch 开发

QWQ-32B的INT8量化版本，通过减少权重和激活的表示位数来优化性能

大型语言模型

Transformers

英语开源协议:Apache-2.0 #INT8量化 #高吞吐推理 #大语言模型

下载量 590

发布时间 : 3/13/2025

模型简介

QWQ-32B的INT8量化版本，优化了GPU内存需求和计算吞吐量，适用于文本生成任务

模型特点

INT8量化

权重和激活均采用INT8量化，减少GPU内存需求和磁盘空间

高效计算

通过量化提升矩阵乘法计算吞吐量约2倍

与vLLM兼容

支持通过vLLM Docker镜像部署，提供OpenAI兼容的API

模型能力

文本生成

使用案例

自然语言处理

文本生成

用于生成连贯的文本内容

🚀 QWQ-32B-INT8-W8A8

QWQ-32B-INT8-W8A8 是 QWQ-32B 的 INT8 量化版本，通过对权重和激活值进行量化，减少了 GPU 内存需求和磁盘空间占用，同时提高了矩阵乘法的计算吞吐量。

image/jpeg

🚀 快速开始

使用 vLLM 部署

可以使用与 OpenAI 兼容的 vLLM Docker 镜像进行部署，示例如下：

#!/bin/bash

# 默认值
NAME_SUFFIX=""
PORT=8010
GPUS="0,1"  # 默认 GPU

# 解析命令行参数
while getopts "s:p:g:" opt; do
    case $opt in
        s) NAME_SUFFIX="$OPTARG";;    # 容器名称后缀
        p) PORT="$OPTARG";;          # 端口号
        g) GPUS="$OPTARG";;          # GPU 设备 (例如 "2,3")
        ?) echo "Usage: $0 [-s suffix] [-p port] [-g gpus]"
           exit 1;;
    esac
done

model=ospatch/QwQ-32B-INT8-W8A8
volume=~/.cache/huggingface/hub
revision=main
version=latest
context=16384
base_name="vllm-qwq-int8"
container_name="${base_name}${NAME_SUFFIX}"

sudo docker run --restart=unless-stopped --name $container_name --runtime nvidia --gpus '"device='"$GPUS"'"' \
     --shm-size 1g -p $PORT:8000 -e NCCL_P2P_DISABLE=1 -e HUGGING_FACE_HUB_TOKEN=<user_token> \
     -v $volume:/root/.cache/huggingface/hub vllm/vllm-openai:$version --model $model \
     --revision $revision --tensor-parallel-size 2 \
     --gpu-memory-utilization 0.97 --max-model-len $context --enable-chunked-prefill

默认配置无需命令行参数。

✨ 主要特性

模型概述

模型架构：采用带有 RoPE、SwiGLU、RMSNorm 和注意力 QKV 偏置的 Transformer 架构。
- 输入：文本
- 输出：文本
模型优化：
- 权重量化：INT8
- 激活量化：INT8
发布日期：2025 年 3 月 13 日

模型优化

该模型通过将 QWQ-32B 的权重和激活值量化为 INT8 数据类型获得。这种优化将表示权重和激活值的位数从 16 位减少到 8 位，从而减少了 GPU 内存需求（约 50%），并提高了矩阵乘法的计算吞吐量（约 2 倍）。权重量化还将磁盘大小需求减少了约 50%。

仅对 Transformer 块内线性算子的权重和激活值进行量化。权重使用对称的逐通道方案进行量化，而激活值使用对称的逐令牌方案进行量化。量化采用了 GPTQ 算法，该算法在 llm-compressor 库中实现。

💻 使用示例

基础用法

使用 vLLM 部署模型的基础用法，见上述快速开始部分的代码示例。

高级用法

创建该模型的代码示例如下：

## 脚本复制自 Neural Magic

from transformers import AutoModelForCausalLM, AutoTokenizer
from datasets import load_dataset
from llmcompressor.modifiers.quantization import QuantizationModifier
from llmcompressor.modifiers.smoothquant import SmoothQuantModifier
from llmcompressor.transformers import oneshot
from llmcompressor.transformers.compression.helpers import calculate_offload_device_map

# 加载模型
model_stub = "Qwen/QwQ-32B"
model_name = model_stub.split("/")[-1]

num_samples = 1024
max_seq_len = 8192

tokenizer = AutoTokenizer.from_pretrained(model_stub)

device_map = calculate_offload_device_map(
    model_stub,
    reserve_for_hessians=True,
    num_gpus=4,
    torch_dtype="auto",
)

model = AutoModelForCausalLM.from_pretrained(
    model_stub,
    device_map=device_map,
    torch_dtype="auto",
)

def preprocess_fn(example):
  return {"text": tokenizer.apply_chat_template(example["messages"], add_generation_prompt=False, tokenize=False)}

ds = load_dataset("neuralmagic/LLM_compression_calibration", split="train")
ds = ds.map(preprocess_fn)

# 配置量化算法和方案
recipe = [
    SmoothQuantModifier(smoothing_strength=0.7),
    QuantizationModifier(
        targets="Linear",
        scheme="W8A8",
        ignore=["lm_head"],
        dampening_frac=0.1,
    ),
]

# 应用量化
oneshot(
    model=model,
    dataset=ds, 
    recipe=recipe,
    max_seq_length=max_seq_len,
    num_calibration_samples=num_samples,
)

# 以压缩张量格式保存到磁盘
save_path = model_name + "-INT8-W8A8"
model.save_pretrained(save_path)
tokenizer.save_pretrained(save_path)
print(f"模型和分词器已保存到: {save_path}")

📚 详细文档

使用指南

请参考 QWQ-32B 的模型卡片。

评估与准确性

该模型通过了初步检查，但未对量化模型的精度损失进行评估。

📄 许可证

本模型采用 Apache-2.0 许可证。

📦 模型信息

属性	详情
模型类型	INT8 量化的 Transformer 模型
基础模型	Qwen/QwQ-32B
发布日期	2025 年 3 月 13 日
量化算法	GPTQ
量化方案	权重 INT8，激活 INT8
优化效果	减少约 50% 的 GPU 内存和磁盘空间，提高约 2 倍的计算吞吐量