Q

Qwen3 32B FP8 Dynamic

由 RedHatAI 开发
基于Qwen3-32B进行FP8动态量化的高效语言模型,显著降低内存需求并提升计算效率
下载量 917
发布时间 : 5/2/2025
模型介绍
内容详情
替代品

模型简介

该模型通过对Qwen3-32B的激活和权重进行FP8数据类型量化获得,降低了GPU内存需求约50%,提高了矩阵乘法计算吞吐量约2倍。适用于推理、函数调用、多语言指令跟随等任务。

模型特点

FP8量化
对权重和激活进行FP8数据类型量化,显著降低内存需求和提升计算效率
高效部署
支持通过vLLM后端高效部署,优化推理性能
高精度保持
量化后模型在多项基准测试中保持原始模型99%以上的准确率

模型能力

文本生成
函数调用
多语言指令跟随
翻译
推理任务处理

使用案例

通用AI助手
知识问答
回答各类知识性问题
在MMLU(5-shot)测试中达到80.89分
数学推理
解决数学问题和逻辑推理
在GSM-8K测试中达到88.32分
专业领域应用
医学问答
回答医学相关问题
在AIME 2024测试中达到79.37分
代码生成
根据描述生成代码
在代码生成任务中表现良好