Q

Qwq 32B FP8 Dynamic

由 nm-testing 开发
QwQ-32B的FP8量化版本,通过动态量化技术减少50%存储和内存需求,同时保持99.75%的原模型精度
下载量 3,895
发布时间 : 3/5/2025
模型介绍
内容详情
替代品

模型简介

基于Qwen/QwQ-32B的FP8量化版本,适用于高效推理部署,特别优化了vLLM后端支持

模型特点

FP8动态量化
权重和激活值均采用FP8量化,存储和内存需求减少约50%
高精度保持
综合测试显示保持99.75%的原模型精度,部分测试指标甚至有所提升
vLLM优化
特别针对vLLM推理框架进行优化,支持高效并行推理
量化方案优化
权重采用逐通道对称量化,激活值采用逐token对称量化方案

模型能力

中文文本生成
多轮对话
复杂推理
知识问答

使用案例

智能对话
个性化角色扮演
模拟特定角色风格进行对话,如海盗口吻
在保持语义准确性的同时实现风格化表达
教育辅助
数学问题解答
解决高中及以上难度的数学问题
在MATH-500测试中达到97.44%准确率
专业咨询
专业领域问答
回答GPQA钻石级专业问题
保持63.21%的准确率