L

Llama 3.1 8B Instruct GGUF

由 Mungert 开发
Llama-3.1-8B-Instruct 是基于 Llama-3-8B 的指令调优版本,采用 IQ-DynamicGate 技术进行超低位量化(1-2 比特),在保持内存效率的同时提升准确性。
下载量 1,073
发布时间 : 3/16/2025
模型介绍
内容详情
替代品

模型简介

该模型是 Meta 发布的 Llama-3 系列中的 8B 参数指令调优版本,经过优化适用于各种推理任务,特别适合内存受限的环境。

模型特点

IQ-DynamicGate 超低位量化
采用分层策略进行 1-2 比特量化,前/后 25% 层使用 IQ4_XS,中间 50% 层使用 IQ2_XXS/IQ3_S,显著降低困惑度。
关键组件保护
嵌入层和输出层使用 Q5_K 量化,减少误差传播达 38%。
内存效率优化
多种量化选项(IQ1_S 到 Q8_0)满足不同内存需求,最小模型仅 2.1GB。

模型能力

文本生成
指令跟随
低内存推理
CPU/边缘设备部署

使用案例

内存受限部署
边缘设备推理
在内存有限的边缘设备上运行大型语言模型
IQ1_S 量化版本仅需 2.1GB 内存
研究应用
超低位量化研究
研究 1-2 比特量化的效果和优化方法
IQ1_M 困惑度降低 43.9%