G

Granite 3.3 8b Instruct GGUF

由 Mungert 开发
采用IQ-DynamicGate技术的超低位量化(1-2比特)语言模型,适用于内存受限环境
下载量 759
发布时间 : 4/17/2025
模型介绍
内容详情
替代品

模型简介

该模型是基于granite-3.3-8b-base的指令调优版本,采用创新的IQ-DynamicGate量化技术,在保持极致内存效率的同时优化模型精度。

模型特点

IQ-DynamicGate量化技术
采用精度自适应量化,对不同层采用不同位宽(1-4比特),在保持内存效率的同时优化模型精度
超低位量化支持
支持1-2比特的极致量化,适合内存受限设备
分层量化策略
对关键组件(如嵌入层)采用更高精度保护,减少误差传播
多格式支持
提供BF16、F16及多种量化格式(Q4_K、Q6_K、Q8_0等)以适应不同硬件

模型能力

文本生成
指令跟随
低内存推理
CPU优化推理

使用案例

边缘计算
移动设备AI助手
在内存有限的移动设备上部署智能助手
1-2比特量化版本可在保持可用性的同时大幅减少内存占用
研究领域
超低位量化研究
研究极端量化条件下的模型行为
提供多种1-3比特量化变体供研究比较