mlabonne_gemma-3-4b-it-abliterated-GGUF开源模型 - 免费部署处理图像文本到文本任务！

首页

Mlabonne Gemma 3 4b It Abliterated GGUF

由 bartowski 开发

这是一个基于mlabonne/gemma-3-4b-it-abliterated模型的量化版本，使用llama.cpp进行imatrix量化，适用于图像文本到文本任务。

图像生成文本 #多模态视觉理解 #高精度量化 #轻量级部署

下载量 9,164

发布时间 : 3/18/2025

模型简介

该模型是Gemma-3-4B-IT的量化版本，支持视觉任务，提供多种量化选项以适应不同硬件需求。

模型特点

多种量化选项

提供从BF16到Q2_K的多种量化版本，适应不同硬件和性能需求。

视觉任务支持

包含MMPROJ文件，支持视觉任务处理。

高效推理

使用llama.cpp优化，支持在LM Studio等平台高效运行。

模型能力

图像文本生成

多模态理解

文本生成

使用案例

多模态应用

图像描述生成

根据输入图像生成描述性文本。

视觉问答

回答关于图像内容的问题。

文本生成

对话系统

构建基于多模态输入的对话系统。

🚀 Llama.cpp对mlabonne的gemma - 3 - 4b - it - abliterated的量化版本

本项目是对mlabonne的gemma - 3 - 4b - it - abliterated模型进行量化处理后的成果。通过量化，能够在不同硬件条件下更高效地运行该模型。

基本信息

属性	详情
量化者	bartowski
任务类型	图像文本到文本
许可证	gemma
基础模型	mlabonne/gemma - 3 - 4b - it - abliterated

🚀 快速开始

本项目使用 llama.cpp 的 b4896 版本进行量化。

原始模型地址：https://huggingface.co/mlabonne/gemma - 3 - 4b - it - abliterated
所有量化版本均使用 imatrix 选项，并采用此处的数据集。

运行方式

LM Studio：可在 LM Studio 中运行。
llama.cpp：可直接使用 llama.cpp 或任何基于 llama.cpp 的项目运行。

✨ 主要特性

提示格式

<bos><start_of_turn>user
{system_prompt}

{prompt}<end_of_turn>
<start_of_turn>model

嵌入/输出权重

部分量化版本（如 Q3_K_XL、Q4_K_L 等）采用标准量化方法，将嵌入和输出权重量化为 Q8_0，而非默认值。

ARM/AVX 信息

之前，会下载 Q4_0_4_4/4_8/8_8 版本，这些版本的权重在内存中交错排列，以提高 ARM 和 AVX 机器的性能。
现在，有了“在线重新打包”功能，详情见此 PR。如果使用 Q4_0 且硬件适合重新打包权重，会自动进行。
从 llama.cpp 构建版本 b4282 开始，无法运行 Q4_0_X_X 文件，需使用 Q4_0。
另外，根据此 PR，可以使用 IQ4_NL 获得更好的质量，它也会为 ARM 重新打包权重，但目前仅支持 4_4。加载时间可能会变长，但整体速度会提高。

📦 安装指南

使用 huggingface - cli 下载

点击查看下载说明

首先，确保已安装 huggingface - cli：

pip install -U "huggingface_hub[cli]"

然后，可指定要下载的特定文件：

huggingface-cli download bartowski/mlabonne_gemma-3-4b-it-abliterated-GGUF --include "mlabonne_gemma-3-4b-it-abliterated-Q4_K_M.gguf" --local-dir ./

如果模型大于 50GB，会被拆分为多个文件。要将它们全部下载到本地文件夹，运行：

huggingface-cli download bartowski/mlabonne_gemma-3-4b-it-abliterated-GGUF --include "mlabonne_gemma-3-4b-it-abliterated-Q8_0/*" --local-dir ./

可以指定新的本地目录（如 mlabonne_gemma - 3 - 4b - it - abliterated - Q8_0），也可以全部下载到当前目录（./）。

💻 使用示例

下载文件

可从以下表格中选择要下载的文件（非整个分支）：

文件名	量化类型	文件大小	拆分情况	描述
mmproj - gemma - 3 - 4b - it - abliterated - f32.gguf	f32	1.68GB	false	F32 格式的 MMPROJ 文件，视觉任务必需。
mmproj - gemma - 3 - 4b - it - abliterated - f16.gguf	f16	851MB	false	F16 格式的 MMPROJ 文件，视觉任务必需。
gemma - 3 - 4b - it - abliterated - bf16.gguf	bf16	7.77GB	false	全 BF16 权重。
gemma - 3 - 4b - it - abliterated - Q8_0.gguf	Q8_0	4.13GB	false	极高质量，通常不需要，但为最大可用量化。
gemma - 3 - 4b - it - abliterated - Q6_K_L.gguf	Q6_K_L	3.35GB	false	嵌入和输出权重使用 Q8_0。非常高质量，接近完美，推荐。
gemma - 3 - 4b - it - abliterated - Q6_K.gguf	Q6_K	3.19GB	false	非常高质量，接近完美，推荐。
gemma - 3 - 4b - it - abliterated - Q5_K_L.gguf	Q5_K_L	2.99GB	false	嵌入和输出权重使用 Q8_0。高质量，推荐。
gemma - 3 - 4b - it - abliterated - Q5_K_M.gguf	Q5_K_M	2.83GB	false	高质量，推荐。
gemma - 3 - 4b - it - abliterated - Q5_K_S.gguf	Q5_K_S	2.76GB	false	高质量，推荐。
gemma - 3 - 4b - it - abliterated - Q4_K_L.gguf	Q4_K_L	2.65GB	false	嵌入和输出权重使用 Q8_0。质量良好，推荐。
gemma - 3 - 4b - it - abliterated - Q4_1.gguf	Q4_1	2.56GB	false	旧格式，性能与 Q4_K_S 相似，但在苹果硅芯片上每瓦处理令牌数有所提高。
gemma - 3 - 4b - it - abliterated - Q4_K_M.gguf	Q4_K_M	2.49GB	false	质量良好，大多数用例的默认大小，推荐。
gemma - 3 - 4b - it - abliterated - Q3_K_XL.gguf	Q3_K_XL	2.40GB	false	嵌入和输出权重使用 Q8_0。质量较低但可用，适合低内存情况。
gemma - 3 - 4b - it - abliterated - Q4_K_S.gguf	Q4_K_S	2.38GB	false	质量略低但节省空间，推荐。
gemma - 3 - 4b - it - abliterated - Q4_0.gguf	Q4_0	2.37GB	false	旧格式，支持 ARM 和 AVX CPU 推理的在线重新打包。
gemma - 3 - 4b - it - abliterated - IQ4_NL.gguf	IQ4_NL	2.36GB	false	与 IQ4_XS 相似，但略大。支持 ARM CPU 推理的在线重新打包。
gemma - 3 - 4b - it - abliterated - IQ4_XS.gguf	IQ4_XS	2.26GB	false	质量不错，比 Q4_K_S 小且性能相似，推荐。
gemma - 3 - 4b - it - abliterated - Q3_K_L.gguf	Q3_K_L	2.24GB	false	质量较低但可用，适合低内存情况。
gemma - 3 - 4b - it - abliterated - Q3_K_M.gguf	Q3_K_M	2.10GB	false	质量低。
gemma - 3 - 4b - it - abliterated - IQ3_M.gguf	IQ3_M	1.99GB	false	中低质量，新方法，性能与 Q3_K_M 相当。
gemma - 3 - 4b - it - abliterated - Q3_K_S.gguf	Q3_K_S	1.94GB	false	质量低，不推荐。
gemma - 3 - 4b - it - abliterated - Q2_K_L.gguf	Q2_K_L	1.89GB	false	嵌入和输出权重使用 Q8_0。质量非常低但意外可用。
gemma - 3 - 4b - it - abliterated - IQ3_XS.gguf	IQ3_XS	1.86GB	false	质量较低，新方法，性能不错，略优于 Q3_K_S。
gemma - 3 - 4b - it - abliterated - Q2_K.gguf	Q2_K	1.73GB	false	质量非常低但意外可用。
gemma - 3 - 4b - it - abliterated - IQ3_XXS.gguf	IQ3_XXS	1.69GB	false	质量较低，新方法，性能不错，与 Q3 量化相当。
gemma - 3 - 4b - it - abliterated - IQ2_M.gguf	IQ2_M	1.54GB	false	质量相对较低，采用先进技术，意外可用。

如何选择文件

点击查看详情

Artefact2 提供了一篇很棒的文章，带有展示各种性能的图表，可查看此处。

首先，要确定能运行多大的模型。这需要了解自己有多少内存（RAM）和/或显存（VRAM）。

如果希望模型运行尽可能快，应让整个模型适应 GPU 的显存。选择文件大小比 GPU 总显存小 1 - 2GB 的量化版本。
如果追求绝对最高质量，将系统内存和 GPU 显存相加，然后选择文件大小比该总和小 1 - 2GB 的量化版本。

接下来，需要决定使用“I - 量化”还是“K - 量化”。

如果不想过多思考，选择 K - 量化版本，格式为“QX_K_X”，如 Q5_K_M。
如果想深入了解，可以查看这个非常有用的特性图表：llama.cpp 特性矩阵。
- 一般来说，如果目标是低于 Q4 的量化，并且使用 cuBLAS（Nvidia）或 rocBLAS（AMD），应考虑 I - 量化版本，格式为 IQX_X，如 IQ3_M。这些是较新的版本，相同大小下性能更好。
- I - 量化版本也可在 CPU 上使用，但比对应的 K - 量化版本慢，因此需要在速度和性能之间做出权衡。
- I - 量化版本与 Vulcan（也是 AMD）不兼容，所以如果使用 AMD 显卡，要确认是使用 rocBLAS 版本还是 Vulcan 版本。撰写本文时，LM Studio 有支持 ROCm 的预览版，其他推理引擎也有针对 ROCm 的特定版本。