Qwen3-8B-FP8-dynamic开源模型 - 降低资源占用且保持性能的实用之选

首页

Qwen3 8B FP8 Dynamic

由 RedHatAI 开发

Qwen3-8B-FP8-dynamic是基于Qwen3-8B模型通过FP8量化优化的版本，显著降低了GPU内存需求和磁盘空间占用，同时保持了原始模型的性能。

大型语言模型

Transformers

开源协议:Apache-2.0 #FP8量化 #多语言生成 #高效推理

下载量 81

发布时间 : 5/2/2025

模型简介

该模型是通过将Qwen3-8B的激活和权重量化为FP8数据类型得到的优化版本，适用于推理、函数调用和多语言指令跟随等任务。

模型特点

FP8量化

通过FP8量化技术，显著降低了GPU内存需求（约50%）和磁盘空间占用（约50%），同时提高了计算吞吐量（约2倍）。

高效推理

优化后的模型保持了原始模型的性能，在多个基准测试中表现优异，部分任务甚至有所提升。

多语言支持

支持多语言指令跟随和翻译任务，适用于国际化应用场景。

模型能力

文本生成

函数调用

多语言指令跟随

翻译

使用案例

通用AI助手

智能问答

回答用户提出的各种问题，提供准确的信息和建议。

在OpenLLM v1基准测试中平均恢复率达到101.0%

教育

数学问题解答

解决复杂的数学问题，提供详细的解题步骤。

在Math-lvl-5测试中达到51.90分

商业应用

多语言客服

提供多语言的客户服务支持，理解并回答客户咨询。

在MGSM多语言测试中达到25.80分

🚀 Qwen3-8B-FP8-dynamic

Qwen3-8B-FP8-dynamic 是一个经过优化的大语言模型，通过将激活和权重量化为 FP8 数据类型，减少了 GPU 内存需求和磁盘空间占用，同时提高了计算吞吐量。该模型适用于推理、函数调用、多语言指令遵循等多种场景。

🚀 快速开始

以下是使用 vLLM 部署该模型的示例代码：

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "RedHatAI/Qwen3-8B-FP8-dynamic"
number_gpus = 1
sampling_params = SamplingParams(temperature=0.6, top_p=0.95, top_k=20, min_p=0, max_tokens=256)

messages = [
    {"role": "user", "content": prompt}
]

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [{"role": "user", "content": "Give me a short introduction to large language model."}]

prompts = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)

llm = LLM(model=model_id, tensor_parallel_size=number_gpus)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

vLLM 还支持与 OpenAI 兼容的服务。更多详细信息请参阅文档。

✨ 主要特性

模型架构：采用 Qwen3ForCausalLM 架构，输入和输出均为文本。
模型优化：将激活和权重量化为 FP8 数据类型，减少 GPU 内存需求约 50%，提高矩阵乘法计算吞吐量约 2 倍，同时磁盘大小需求也减少约 50%。
预期用例：适用于推理、函数调用、通过微调服务主题专家、多语言指令遵循和翻译等场景。

📚 详细文档

模型概述

模型架构：Qwen3ForCausalLM
- 输入：文本
- 输出：文本
模型优化：
- 激活量化：FP8
- 权重量化：FP8
预期用例：
- 推理。
- 函数调用。
- 通过微调服务主题专家。
- 多语言指令遵循。
- 翻译。
适用范围外：禁止以任何违反适用法律法规（包括贸易合规法律）的方式使用。
发布日期：2025 年 2 月 5 日
版本：1.0
模型开发者：RedHat (Neural Magic)

模型优化

该模型是通过将 Qwen3-8B 的激活和权重量化为 FP8 数据类型得到的。这种优化将表示权重和激活的位数从 16 位减少到 8 位，从而减少了 GPU 内存需求（约 50%）并提高了矩阵乘法计算吞吐量（约 2 倍）。权重量化还将磁盘大小需求减少了约 50%。

仅对 Transformer 块内线性算子的权重和激活进行量化。权重采用对称静态每通道方案进行量化，而激活采用对称动态每令牌方案进行量化。量化过程使用了 llm-compressor 库。

部署

该模型可以使用 vLLM 后端进行高效部署，示例代码见快速开始部分。

创建

创建详情

该模型使用 [llm-compressor](https://github.com/vllm-project/llm-compressor) 通过运行以下代码片段创建：

from llmcompressor.modifiers.quantization import QuantizationModifier
from llmcompressor.transformers import oneshot
from transformers import AutoModelForCausalLM, AutoTokenizer

# 加载模型
model_stub = "Qwen/Qwen3-8B"
model_name = model_stub.split("/")[-1]

model = AutoModelForCausalLM.from_pretrained(model_stub)

tokenizer = AutoTokenizer.from_pretrained(model_stub)

# 配置量化算法和方案
recipe = QuantizationModifier(
    ignore=["lm_head"],
    targets="Linear",
    scheme="FP8_dynamic",
)

# 应用量化
oneshot(
    model=model,
    recipe=recipe,
)

# 以压缩张量格式保存到磁盘
save_path = model_name + "-FP8-dynamic"
model.save_pretrained(save_path)
tokenizer.save_pretrained(save_path)
print(f"模型和分词器保存到: {save_path}")

评估

该模型在 OpenLLM 排行榜任务（版本 1 和 2）上使用 lm-evaluation-harness 进行评估，并在推理任务上使用 lighteval 进行评估。所有评估均使用 vLLM。

评估详情

lm-evaluation-harness

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Qwen3-8B-FP8-dynamic",dtype=auto,gpu_memory_utilization=0.5,max_model_len=8192,enable_chunk_prefill=True,tensor_parallel_size=1 \
  --tasks openllm \
  --apply_chat_template\
  --fewshot_as_multiturn \
  --batch_size auto

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Qwen3-8B-FP8-dynamic",dtype=auto,gpu_memory_utilization=0.5,max_model_len=8192,enable_chunk_prefill=True,tensor_parallel_size=1 \
  --tasks mgsm \
  --apply_chat_template\
  --batch_size auto

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Qwen3-8B-FP8-dynamic",dtype=auto,gpu_memory_utilization=0.5,max_model_len=16384,enable_chunk_prefill=True,tensor_parallel_size=1 \
  --tasks leaderboard \
  --apply_chat_template\
  --fewshot_as_multiturn \
  --batch_size auto

lighteval

lighteval_model_arguments.yaml

model_parameters:
  model_name: RedHatAI/Qwen3-8B-FP8-dynamic
  dtype: auto
  gpu_memory_utilization: 0.9
  max_model_length: 40960
  generation_parameters:
    temperature: 0.6
    top_k: 20
    min_p: 0.0
    top_p: 0.95
    max_new_tokens: 32768

lighteval vllm \
  --model_args lighteval_model_arguments.yaml \
  --tasks lighteval|aime24|0|0 \
  --use_chat_template = true

lighteval vllm \
  --model_args lighteval_model_arguments.yaml \
  --tasks lighteval|aime25|0|0 \
  --use_chat_template = true

lighteval vllm \
  --model_args lighteval_model_arguments.yaml \
  --tasks lighteval|math_500|0|0 \
  --use_chat_template = true

lighteval vllm \
  --model_args lighteval_model_arguments.yaml \
  --tasks lighteval|gpqa:diamond|0|0 \
  --use_chat_template = true

lighteval vllm \
  --model_args lighteval_model_arguments.yaml \
  --tasks extended|lcb:codegeneration \
  --use_chat_template = true

准确性

类别	基准测试	Qwen3-8B	Qwen3-8B-FP8-dynamic（本模型）	恢复率
OpenLLM v1	MMLU (5-shot)	71.95	72.30	100.5%
	ARC Challenge (25-shot)	61.69	61.60	99.9%
	GSM-8K (5-shot, strict-match)	75.97	80.52	106.0%
	Hellaswag (10-shot)	56.52	55.95	99.0%
	Winogrande (5-shot)	65.98	66.22	100.4%
	TruthfulQA (0-shot, mc2)	53.17	52.39	98.5%
	平均	64.21	64.83	101.0%
OpenLLM v2	MMLU-Pro (5-shot)	34.57	37.82	109.4%
	IFEval (0-shot)	84.77	84.56	99.8%
	BBH (3-shot)	25.47	27.20	106.8%
	Math-lvl-5 (4-shot)	51.05	51.90	101.7%
	GPQA (0-shot)	0.00	0.00	---
	MuSR (0-shot)	10.02	10.65	---
	平均	34.31	35.35	103.0%
多语言	MGSM (0-shot)	25.97	25.80	99.4%
推理 (生成)	AIME 2024	74.58	76.35	102.4%
	AIME 2025	65.21	63.75	97.8%
	GPQA diamond	58.59	61.11	104.3%
	Math-lvl-5	97.60	96.60	99.0%
	LiveCodeBench	56.27	56.60	100.6%