Q

Qwq 32B FP8 Dynamic

由 RedHatAI 开发
QwQ-32B的FP8量化版本,通过动态量化技术减少50%存储和内存需求,同时保持99.75%的原始模型精度
下载量 3,107
发布时间 : 3/5/2025
模型介绍
内容详情
替代品

模型简介

基于Qwen/QwQ-32B的量化优化版本,采用FP8动态量化技术优化权重和激活值,适用于高效推理部署

模型特点

FP8动态量化
权重和激活值采用FP8量化,存储和内存需求减少约50%
高精度保持
在多项基准测试中保持99.75%的原始模型精度
vLLM优化支持
专为vLLM推理引擎优化,支持高效部署

模型能力

文本生成
对话系统
代码生成
数学推理

使用案例

智能对话
角色扮演对话
支持特定角色风格的对话生成
示例中展示了海盗风格的回答能力
数学推理
数学问题求解
解决复杂数学问题
在MATH-500测试中达到97.44%准确率