O

Orpheus 3b 0.1 Ft GGUF

由 Mungert 开发
基于Llama-3-8B架构优化的超低比特量化模型,采用IQ-DynamicGate技术实现1-2比特精度自适应量化,适用于内存受限环境。
下载量 1,427
发布时间 : 4/3/2025
模型介绍
内容详情
替代品

模型简介

该模型通过动态精度分配和关键组件保护技术,在保持极高内存效率的同时显著提升低比特量化的准确性,特别适合边缘设备和CPU推理。

模型特点

IQ-DynamicGate超低比特量化
采用分层策略实现1-2比特精度自适应量化,前25%和后25%层使用IQ4_XS,中间50%层使用IQ2_XXS/IQ3_S,显著降低误差传播。
关键组件保护
嵌入层和输出层使用Q5_K量化保护,相比标准量化减少38%误差传播。
内存效率优化
在Llama-3-8B上验证,IQ1_M模型困惑度降低43.9%,内存仅增加0.3GB。

模型能力

文本生成
低内存推理
边缘设备部署

使用案例

资源受限环境部署
边缘设备AI助手
在内存有限的IoT设备上部署聊天机器人
IQ2_S量化版仅需2.9GB内存,困惑度9.02
CPU实时推理
在没有GPU的服务器上运行批量文本生成
IQ4_K版本在CPU上推理速度达246 tokens/s
量化技术研究
超低比特算法验证
作为1-3比特量化新算法的测试基准
提供IQ1_S到IQ4_K全系列量化对比数据