Gemma 3-4b-it-gguf开源多模态模型 - 免费支持图文输入并生成文本内容

首页

Gemma 3 4b It Gguf

由 Mungert 开发

Gemma 3是谷歌推出的轻量级开源多模态模型，支持图像和文本输入，生成文本输出。

图像生成文本 #多模态图像理解 #128K长上下文 #轻量级部署

下载量 4,593

发布时间 : 3/12/2025

模型简介

基于Gemini技术构建的轻量级开源模型，支持128K上下文窗口和140多种语言，适用于问答、摘要和图像理解等任务。

模型特点

多模态支持

可同时处理图像和文本输入，生成文本输出

大上下文窗口

支持128K令牌的上下文长度

轻量级设计

4B参数规模适合在资源有限的环境中部署

多语言支持

支持140多种语言的文本处理

模型能力

图像内容分析

多语言文本生成

问答系统

文档摘要

跨模态推理

使用案例

内容分析

图像描述生成

分析图像内容并生成详细描述

能准确识别车辆型号、场景细节等

智能助手

多模态问答

结合图像和文本信息回答问题

🚀 Gemma-3 4B指令式GGUF模型

Gemma-3 4B指令式GGUF模型是基于Transformer架构的图像识别模型，可处理文本和图像输入并生成文本输出，适用于多种文本生成和图像理解任务。

🚀 快速开始

使用llama.cpp运行Gemma 3 Vision

若要在llama.cpp中使用Gemma 3 Vision的实验性支持，请按以下步骤操作：

克隆最新的llama.cpp仓库：

git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp

构建Llama.cpp：按照常规方式构建llama.cpp：构建项目。构建完成后，将./llama.cpp/build/bin/llama-gemma3-cli复制到指定文件夹。
下载Gemma 3的gguf文件：访问Gemma 3 gguf文件，选择名称中不包含mmproj的gguf文件。例如：google_gemma-3-4b-it-q4_k_l.gguf，将该文件复制到指定文件夹。
下载Gemma 3的mmproj文件：访问Gemma 3 mmproj文件，选择名称中包含mmproj的文件。例如：google_gemma-3-4b-it-mmproj-bf16.gguf，将该文件复制到指定文件夹。
复制图像到指定文件夹：将图像复制到与gguf文件相同的文件夹，或者相应地更改路径。例如：car-1.jpg，将该文件复制到指定文件夹。
运行CLI工具：在指定文件夹中运行以下命令：

llama-gemma3-cli -m google_gemma-3-4b-it-q4_k_l.gguf --mmproj google_gemma-3-4b-it-mmproj-bf16.gguf

运行在聊天模式下，可用命令如下：
  /image <路径>    加载图像
  /clear           清除聊天历史
  /quit 或 /exit   退出程序

> /image car-1.jpg
编码图像 car-1.jpg
图像编码耗时 46305 毫秒
图像解码耗时 19302 毫秒

> 图像内容是什么
以下是图像内容的详细描述：

**主体**：主要主体是一辆黑色保时捷Panamera Turbo在高速公路上行驶。

**细节**：
* **汽车**：这是一辆时尚、现代的保时捷Panamera Turbo，可通过其独特的尾部设计、“PORSCHE”字样和“Panamera Turbo”标志识别。车牌号码为“CVC - 911”。
* **场景**：汽车行驶在多车道高速公路上，背景是模糊的树木、远处的建筑物和多云的天空。光线表明当时可能是黄昏或黎明。
* **动态**：图像捕捉到汽车行驶的瞬间，有轻微的动态模糊以体现速度感。

**整体印象**：图像传达出速度、豪华和力量感。这是一张构图精美的照片，突出了汽车的设计和性能。

是否需要我更详细地描述图像的特定方面，或者分析其构图？

✨ 主要特性

模型测试

如果您觉得这些模型有用，请点赞❤️。同时，如果您能测试我的网络监控助手，我将不胜感激👉 网络监控助手。 💬 点击聊天图标（主页和仪表盘页面右下角），选择一个大语言模型；在不同类型的大语言模型之间切换：TurboLLM -> FreeLLM -> TestLLM。

测试内容

我正在针对我的网络监控服务进行函数调用实验，使用小型开源模型。我关注的问题是“模型可以多小且仍能正常工作”。 🟡 TestLLM – 使用phi - 4 - mini - instruct和phi - 4 - mini - q4_0.gguf，在CPU虚拟机的6个线程上运行llama.cpp（加载大约需要15秒，推理速度较慢，且一次只能处理一个用户提示，仍在进行扩展优化！）。如果您感兴趣，我很乐意分享其工作原理。

其他可用的AI助手

🟢 TurboLLM – 使用gpt - 4o - mini，速度快！注意：由于OpenAI模型成本较高，令牌有限，但您可以登录或下载免费的网络监控代理以获取更多令牌，或者使用TestLLM。 🔵 HugLLM – 运行开源Hugging Face模型，速度快，运行小型模型（≈8B），因此质量稍低，可获得2倍的令牌（取决于Hugging Face API的可用性）。

选择合适的模型格式

选择正确的模型格式取决于您的硬件能力和内存限制。

BF16（脑浮点16） – 若支持BF16加速则使用

一种16位浮点格式，旨在实现更快的计算，同时保持良好的精度。
提供与FP32 相似的动态范围，但内存使用更低。
如果您的硬件支持BF16加速（请检查设备规格），建议使用。
与FP32相比，适用于高性能推理且内存占用减少。

📌 适用场景： ✔ 您的硬件具有原生BF16支持（例如，较新的GPU、TPU）。 ✔ 您希望在节省内存的同时获得更高的精度。 ✔ 您计划将模型重新量化为其他格式。

📌 避免场景： ❌ 您的硬件不支持BF16（可能会回退到FP32并运行较慢）。 ❌ 您需要与缺乏BF16优化的旧设备兼容。

F16（浮点16） – 比BF16更广泛支持

一种16位浮点格式，精度较高，但取值范围比BF16小。
适用于大多数支持FP16加速的设备（包括许多GPU和一些CPU）。
数值精度略低于BF16，但通常足以进行推理。

📌 适用场景： ✔ 您的硬件支持FP16但不支持BF16。 ✔ 您需要在速度、内存使用和准确性之间取得平衡。 ✔ 您在GPU或其他针对FP16计算优化的设备上运行。

📌 避免场景： ❌ 您的设备缺乏原生FP16支持（可能运行速度比预期慢）。 ❌ 您有内存限制。

量化模型（Q4_K、Q6_K、Q8等） – 适用于CPU和低显存推理

量化可在尽可能保持准确性的同时减小模型大小和内存使用。

低比特模型（Q4_K） → 内存使用最少，但精度可能较低。
高比特模型（Q6_K、Q8_0） → 准确性更好，但需要更多内存。

📌 适用场景： ✔ 您在CPU上进行推理，需要优化的模型。 ✔ 您的设备显存较低，无法加载全精度模型。 ✔ 您希望在保持合理准确性的同时减少内存占用。

📌 避免场景： ❌ 您需要最高的准确性（全精度模型更适合）。 ❌ 您的硬件有足够的显存支持更高精度的格式（BF16/F16）。

模型格式选择总结表

属性	详情
模型类型	BF16：精度最高，内存使用高，需要支持BF16的GPU/CPU，适用于高速推理且减少内存使用的场景；F16：精度高，内存使用高，需要支持FP16的设备，适用于BF16不可用时的GPU推理；Q4_K：精度低，内存使用极低，适用于CPU或低显存设备，适合内存受限的环境；Q6_K：精度中等偏低，内存使用低，适用于有更多内存的CPU，在量化模型中准确性较好；Q8：精度中等，内存使用适中，需要有足够显存的CPU或GPU，在量化模型中准确性最佳。
训练数据	未提及

属性

详情

模型类型

BF16：精度最高，内存使用高，需要支持BF16的GPU/CPU，适用于高速推理且减少内存使用的场景；F16：精度高，内存使用高，需要支持FP16的设备，适用于BF16不可用时的GPU推理；Q4_K：精度低，内存使用极低，适用于CPU或低显存设备，适合内存受限的环境；Q6_K：精度中等偏低，内存使用低，适用于有更多内存的CPU，在量化模型中准确性较好；Q8：精度中等，内存使用适中，需要有足够显存的CPU或GPU，在量化模型中准确性最佳。

训练数据

未提及

包含的文件及详情

`google_gemma-3-4b-it-bf16.gguf`

模型权重以BF16格式保存。
如果您想将模型重新量化为其他格式，请使用此文件。
若您的设备支持BF16加速，此文件为最佳选择。

`google_gemma-3-4b-it-f16.gguf`

模型权重以F16格式保存。
如果您的设备支持FP16，尤其是在BF16不可用时，请使用此文件。

`google_gemma-3-4b-it-bf16-q8.gguf`

输出和嵌入保持为BF16格式。
其他所有层量化为Q8_0。
如果您的设备支持BF16且需要量化版本，请使用此文件。

`google_gemma-3-4b-it-f16-q8.gguf`

输出和嵌入保持为F16格式。
其他所有层量化为Q8_0。

`google_gemma-3-4b-it-q4_k_l.gguf`

输出和嵌入量化为Q8_0。
其他所有层量化为Q4_K。
适用于内存有限的CPU推理。

`google_gemma-3-4b-it-q4_k_m.gguf`

与Q4_K类似。
是低内存CPU推理的另一种选择。

`google_gemma-3-4b-it-q4_k_s.gguf`

最小的Q4_K变体，以牺牲准确性为代价减少内存使用。
最适合极低内存的设置。

`google_gemma-3-4b-it-q6_k_l.gguf`

输出和嵌入量化为Q8_0。
其他所有层量化为Q6_K。

`google_gemma-3-4b-it-q6_k_m.gguf`

中等范围的Q6_K量化模型，性能平衡。
适用于中等内存的基于CPU的推理。

`google_gemma-3-4b-it-q8.gguf`

完全Q8量化的模型，准确性更好。
需要更多内存，但提供更高的精度。

📚 详细文档

Gemma 3模型卡片

模型页面：Gemma

资源和技术文档：

[Gemma 3技术报告][g3-tech-report]
[负责任的生成式AI工具包][rai-toolkit]
[Kaggle上的Gemma][kaggle-gemma]
[Vertex模型库中的Gemma 3][vertex-mg-gemma3]

使用条款：[条款][terms]

作者：Google DeepMind

模型信息

描述

Gemma是谷歌推出的一系列轻量级、先进的开源模型，基于与Gemini模型相同的研究和技术构建。Gemma 3模型是多模态的，可处理文本和图像输入并生成文本输出，预训练变体和指令微调变体的权重均开源。Gemma 3具有128K的大上下文窗口，支持超过140种语言，且比以前的版本有更多的尺寸可供选择。Gemma 3模型非常适合各种文本生成和图像理解任务，包括问答、摘要和推理。其相对较小的尺寸使其能够部署在资源有限的环境中，如笔记本电脑、台式机或您自己的云基础设施，使先进的AI模型更普及，促进每个人的创新。

输入和输出

输入：
- 文本字符串，如问题、提示或待总结的文档。
- 图像，归一化为896 x 896分辨率，每个图像编码为256个令牌。
- 4B、12B和27B尺寸的总输入上下文为128K个令牌，1B尺寸的总输入上下文为32K个令牌。
输出：
- 针对输入生成的文本，如问题的答案、图像内容分析或文档摘要。
- 总输出上下文为8192个令牌。