O

Olmo 2 0325 32B Instruct GGUF

由 Mungert 开发
基于OLMo-2-0325-32B-DPO的指令微调模型,采用IQ-DynamicGate超低比特量化技术,专为内存受限环境优化。
下载量 15.57k
发布时间 : 4/2/2025
模型介绍
内容详情
替代品

模型简介

该模型是一个32B参数的大语言模型,经过指令微调,支持文本生成任务。采用创新的IQ-DynamicGate量化技术,可在1-2比特超低精度下保持较高性能。

模型特点

IQ-DynamicGate超低比特量化
创新的1-2比特量化技术,采用精度自适应策略,在保持极致内存效率的同时减少错误传播。
分层量化策略
对模型不同层采用差异化量化方案,关键组件保留更高精度,平衡性能与效率。
多格式支持
提供从BF16到IQ3_XS等多种量化格式,适应不同硬件环境和性能需求。

模型能力

文本生成
指令跟随
低内存推理

使用案例

资源受限环境部署
边缘设备推理
在内存有限的边缘设备上运行大型语言模型
IQ1_M量化版本困惑度降低43.9%
CPU推理优化
在没有GPU加速的CPU环境中高效运行模型
Q4_K量化版本适合内存有限的CPU推理
研究应用
超低比特量化研究
研究1-2比特量化对模型性能的影响
IQ2_S量化版本困惑度降低36.9%