量化者:bartowski
流水线标签:图像文本到文本
许可证:gemma
基础模型:mlabonne/gemma-3-4b-it-abliterated
mlabonne的gemma-3-4b-it-abliterated模型的Llamacpp imatrix量化版本
使用llama.cpp发布的b4896版本进行量化。
原始模型:https://huggingface.co/mlabonne/gemma-3-4b-it-abliterated
所有量化均使用imatrix选项,数据集来自此处
可在LM Studio中运行
也可直接使用llama.cpp或任何基于llama.cpp的项目运行
提示格式
<bos><start_of_turn>user
{系统提示}
{提示}<end_of_turn>
<start_of_turn>model
从下方下载单个文件(非整个分支):
嵌入/输出权重
部分量化版本(如Q3_K_XL、Q4_K_L等)采用标准量化方法,但嵌入和输出权重被量化为Q8_0而非默认值。
使用huggingface-cli下载
点击查看下载说明
首先确保已安装huggingface-cli:
pip install -U "huggingface_hub[cli]"
然后指定目标文件:
huggingface-cli download bartowski/mlabonne_gemma-3-4b-it-abliterated-GGUF --include "mlabonne_gemma-3-4b-it-abliterated-Q4_K_M.gguf" --local-dir ./
若模型超过50GB会被分割。下载全部文件到本地目录:
huggingface-cli download bartowski/mlabonne_gemma-3-4b-it-abliterated-GGUF --include "mlabonne_gemma-3-4b-it-abliterated-Q8_0/*" --local-dir ./
可指定新目录或直接下载到当前目录。
ARM/AVX信息
此前需下载Q4_0_4_4/4_8/8_8等文件,这些文件通过内存交错权重提升ARM和AVX设备的性能。
现在支持权重"在线重打包",详见此PR。使用Q4_0时若硬件支持会自动重打包。
自llama.cpp的b4282版本起,Q4_0_X_X文件不再可用,需改用Q4_0。
此外,通过此PR可使用IQ4_NL获得更优质量(目前仅支持4_4 ARM重打包),加载时间可能更长但整体速度提升。
点击查看Q4_0_X_X信息(已弃用)
保留此部分展示Q4_0在线重打包的理论性能提升。
点击查看AVX2系统(EPYC7702)基准测试
(基准测试数据表格略)
Q4_0_8_8在提示处理和小文本生成上均有提升。
如何选择文件?
点击查看详情
Artefact2提供的详细分析包含性能图表。
首先确定可运行模型的尺寸:计算可用RAM/VRAM总量,选择比总量小1-2GB的量化文件。
若追求极速,选择能完全放入GPU显存的量化(文件大小比显存小1-2GB)。
若追求最高质量,合并系统内存和显存后选择对应量化。
其次选择"I-quant"或"K-quant":
不想深入思考?选择K-quant(格式如QX_K_X,例Q5_K_M)。
进阶选项可参考llama.cpp特性矩阵。
若目标量化低于Q4且使用cuBLAS(Nvidia)或rocBLAS(AMD),建议选择I-quant(格式如IQX_X,例IQ3_M)。这些新量化在同等尺寸下性能更优。
I-quant也可用于CPU但速度慢于K-quant,需权衡速度与质量。
注意:I-quant不兼容Vulkan(AMD显卡需确认使用rocBLAS还是Vulkan构建)。
致谢
感谢kalomaze和Dampf协助创建imatrix校准数据集。
感谢ZeroWw启发嵌入/输出权重的实验。
感谢LM Studio对本项目的赞助。
支持我的工作?访问我的ko-fi页面:https://ko-fi.com/bartowski