Q

Qwen3 32B Quantized.w4a16

由 RedHatAI 开发
Qwen3-32B的INT4量化版本,通过权重量化减少75%的磁盘和GPU内存需求,保持高性能
下载量 2,213
发布时间 : 5/5/2025
模型介绍
内容详情
替代品

模型简介

基于Qwen3-32B的量化模型,适用于文本生成、函数调用和多语言任务,支持高效推理

模型特点

高效量化
采用INT4权重量化,减少75%的磁盘和GPU内存需求
高性能保持
量化后模型在多个基准测试中保持99%以上的原始性能
多语言支持
支持多种语言的指令跟随和翻译任务
高效推理
优化后适合在vLLM等高效推理框架上部署

模型能力

文本生成
函数调用
多语言指令跟随
翻译
领域微调

使用案例

通用推理
知识问答
回答各类知识性问题
在MMLU测试中达到80.36分
数学推理
解决数学问题
在GSM-8K测试中达到85.97分
专业应用
领域专家
通过微调成为特定领域专家
代码生成
生成编程代码