库名称: transformers
许可证: apache-2.0
流水线标签: 文本生成
基础模型:
- Qwen/Qwen3-30B-A3B
标签:
- neuralmagic
- redhat
- llmcompressor
- 量化
- FP8
Qwen3-30B-A3B-FP8-dynamic
模型概述
- 模型架构: Qwen3MoeForCausalLM
- 模型优化:
- 预期用途:
- 推理
- 函数调用
- 通过微调成为领域专家
- 多语言指令遵循
- 翻译
- 非适用范围: 任何违反适用法律法规(包括贸易合规法律)的使用方式
- 发布日期: 2025年5月5日
- 版本: 1.0
- 模型开发者: RedHat (Neural Magic)
模型优化
该模型是通过将Qwen3-30B-A3B的激活和权重量化为FP8数据类型得到的。
这一优化将权重和激活的表示位数从16位减少到8位,从而降低了GPU内存需求(约减少50%)并提高了矩阵乘法计算吞吐量(约提升2倍)。
权重量化还使磁盘空间需求减少了约50%。
仅对transformer块内线性算子的权重和激活进行量化。
权重采用对称静态逐通道方案量化,而激活采用对称动态逐令牌方案量化。
量化使用了llm-compressor库。
部署
该模型可以使用vLLM后端高效部署,如下例所示。
from vllm import LLM, SamplingParams
from transformers import AutoTokenizer
model_id = "RedHatAI/Qwen3-30B-A3B-FP8-dynamic"
number_gpus = 1
sampling_params = SamplingParams(temperature=0.6, top_p=0.95, top_k=20, min_p=0, max_tokens=256)
messages = [
{"role": "user", "content": prompt}
]
tokenizer = AutoTokenizer.from_pretrained(model_id)
messages = [{"role": "user", "content": "简要介绍一下大语言模型。"}]
prompts = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
llm = LLM(model=model_id, tensor_parallel_size=number_gpus)
outputs = llm.generate(prompts, sampling_params)
generated_text = outputs[0].outputs[0].text
print(generated_text)
vLLM还支持与OpenAI兼容的服务。更多详情请参阅文档。
创建
创建详情
该模型是通过运行以下代码片段使用[llm-compressor](https://github.com/vllm-project/llm-compressor)创建的。
from llmcompressor.modifiers.quantization import QuantizationModifier
from llmcompressor.transformers import oneshot
from transformers import AutoModelForCausalLM, AutoTokenizer
model_stub = "Qwen/Qwen3-30B-A3B"
model_name = model_stub.split("/")[-1]
model = AutoModelForCausalLM.from_pretrained(model_stub)
tokenizer = AutoTokenizer.from_pretrained(model_stub)
recipe = QuantizationModifier(
ignore=["lm_head"],
targets="Linear",
scheme="FP8_dynamic",
)
oneshot(
model=model,
recipe=recipe,
)
save_path = model_name + "-FP8-dynamic"
model.save_pretrained(save_path)
tokenizer.save_pretrained(save_path)
print(f"模型和分词器已保存至: {save_path}")
评估
该模型在OpenLLM排行榜任务(版本1)上进行了评估,使用了lm-evaluation-harness和vLLM。
评估详情
lm_eval \
--model vllm \
--model_args pretrained="RedHatAI/Qwen3-30B-A3B-FP8-dynamic",dtype=auto,gpu_memory_utilization=0.5,max_model_len=8192,enable_chunk_prefill=True,tensor_parallel_size=1 \
--tasks openllm \
--apply_chat_template\
--fewshot_as_multiturn \
--batch_size auto
准确率
类别
|
基准测试
|
Qwen3-30B-A3B
|
Qwen3-30B-A3B-FP8-dynamic (本模型)
|
恢复率
|
OpenLLM v1
|
MMLU (5-shot)
|
77.67
|
77.49
|
99.8%
|
ARC Challenge (25-shot)
|
63.40
|
63.65
|
100.4%
|
GSM-8K (5-shot, 严格匹配)
|
87.26
|
86.73
|
99.4%
|
Hellaswag (10-shot)
|
54.33
|
54.33
|
100.0%
|
Winogrande (5-shot)
|
66.77
|
66.30
|
99.3%
|
TruthfulQA (0-shot, mc2)
|
56.27
|
56.88
|
101.1%
|
平均
|
67.62
|
67.56
|
99.9%
|
OpenLLM v2
|
MMLU-Pro (5-shot)
|
47.45
|
48.40
|
102.0%
|
IFEval (0-shot)
|
86.26
|
86.08
|
99.8%
|
BBH (3-shot)
|
34.81
|
34.70
|
99.7%
|
Math-lvl-5 (4-shot)
|
52.14
|
59.39
|
113.9%
|
GPQA (0-shot)
|
0.31
|
0.90
|
---
|
MuSR (0-shot)
|
8.09
|
9.05
|
---
|
平均
|
38.18
|
39.75
|
104.1%
|
多语言
|
MGSM (0-shot)
|
32.27
|
32.73
|
101.5%
|
推理 (生成)
|
AIME 2024
|
78.33
|
78.96
|
100.8%
|
AIME 2025
|
71.46
|
68.44
|
95.8%
|
GPQA diamond
|
62.63
|
62.63
|
100.0%
|
Math-lvl-5
|
97.60
|
95.80
|
98.2%
|
LiveCodeBench
|
60.66
|
60.89
|
100.4%
|