Q

Qwq 32B GGUF

由 Mungert 开发
采用IQ-DynamicGate技术的超低位量化(1-2比特)大语言模型,支持多语言文本生成任务
下载量 5,770
发布时间 : 4/4/2025
模型介绍
内容详情
替代品

模型简介

基于Qwen2.5-32B的量化版本,通过动态精度分配技术实现超低位量化(1-2比特),在保持内存效率的同时提升模型准确性。

模型特点

IQ-DynamicGate量化技术
采用分层策略的动态精度分配,前25%和后25%的层使用IQ4_XS,中间50%的层使用IQ2_XXS/IQ3_S,显著降低误差传播
关键组件保护
嵌入层和输出层使用Q5_K量化,相比标准1-2比特量化减少38%的误差传播
多格式支持
提供BF16、F16及多种量化格式(Q4_K、Q6_K、Q8_0等),适配不同硬件需求

模型能力

多语言文本生成
聊天对话
低资源环境推理

使用案例

资源受限部署
边缘设备文本生成
在内存有限的边缘设备上运行聊天机器人
IQ1_M量化版本困惑度降低43.9%
研究应用
超低位量化研究
探索1-2比特量化的极限性能
IQ2_S量化困惑度降低36.9%