Gemma-3开源多模态模型 - 支持图文输入，超140种语言文本输出！

首页

Gemma 3 12b It Gguf

由 Mungert 开发

Gemma-3 是谷歌推出的轻量级多模态开放模型，支持文本和图像输入，生成文本输出。基于创建 Gemini 模型的研究和技术构建，具有 128K 大上下文窗口，支持超过 140 种语言。

图像生成文本 #多模态图像理解 #128K长上下文 #轻量级部署

下载量 4,574

发布时间 : 3/12/2025

模型简介

Gemma-3 是多模态模型，适用于文本生成和图像理解任务，包括问答、摘要和推理。其相对较小的尺寸使其能够在资源有限的环境中部署。

模型特点

多模态支持

支持文本和图像输入，生成文本输出，适用于多种任务。

大上下文窗口

具有 128K 的大上下文窗口，适合处理长文本和复杂任务。

轻量级设计

相对较小的尺寸使其能够在资源有限的环境中部署，如笔记本电脑或自有云基础设施。

多语言支持

支持超过 140 种语言，适合全球化应用。

模型能力

文本生成

图像理解

问答

摘要

推理

使用案例

内容生成

图像描述生成

根据输入的图像生成详细的描述文本。

生成准确且详细的图像描述，适用于无障碍服务或内容标注。

问答系统

基于文本或图像输入的问答系统。

提供准确的答案，适用于客服或教育场景。

数据分析

文档摘要

对长文档进行摘要，提取关键信息。

生成简洁且信息丰富的摘要，提高阅读效率。

🚀 Gemma-3 12B Instruct GGUF 模型

Gemma-3 12B Instruct GGUF 模型是基于 Google 先进技术的多模态模型，支持处理文本和图像输入并生成文本输出。它具有 128K 大上下文窗口和超 140 种语言的多语言支持，适用于多种文本生成和图像理解任务。

🚀 快速开始

使用 llama.cpp 运行 Gemma 3 Vision

若要在 llama.cpp 中使用 Gemma 3 Vision 的实验性支持，请按以下步骤操作：

克隆最新的 llama.cpp 仓库：

git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp

编译 Llama.cpp：按照常规方式编译 llama.cpp：https://github.com/ggml-org/llama.cpp#building-the-project。编译完成后，将 ./llama.cpp/build/bin/llama-gemma3-cli 复制到指定文件夹。
下载 Gemma 3 的 gguf 文件：访问 https://huggingface.co/Mungert/gemma-3-12b-it-gguf/tree/main，选择名称中不含 mmproj 的 gguf 文件。示例 gguf 文件：https://huggingface.co/Mungert/gemma-3-12b-it-gguf/resolve/main/google_gemma-3-12b-it-q4_k_l.gguf，将该文件复制到指定文件夹。
下载 Gemma 3 的 mmproj 文件：访问 https://huggingface.co/Mungert/gemma-3-12b-it-gguf/tree/main，选择名称中含 mmproj 的文件。示例 mmproj 文件：https://huggingface.co/Mungert/gemma-3-12b-it-gguf/resolve/main/google_gemma-3-12b-it-mmproj-bf16.gguf，将该文件复制到指定文件夹。
复制图像文件：将图像文件复制到与 gguf 文件相同的文件夹，或相应地修改路径。示例图像：https://huggingface.co/Mungert/gemma-3-12b-it-gguf/resolve/main/car-1.jpg，将该文件复制到指定文件夹。
运行 CLI 工具：在指定文件夹中运行以下命令：

llama-gemma3-cli -m google_gemma-3-12b-it-q4_k_l.gguf --mmproj google_gemma-3-12b-it-mmproj-bf16.gguf

运行于聊天模式，可用命令如下：
  /image <路径>    加载图像
  /clear           清除聊天历史
  /quit 或 /exit   退出程序

> /image car-1.jpg
编码图像 car-1.jpg
图像编码耗时 46305 毫秒
图像解码耗时 19302 毫秒

> 图像内容是什么
以下是图像内容的详细描述：

**主体**：主要主体是一辆黑色保时捷 Panamera Turbo 在高速公路上行驶。

**细节**：
* **汽车**：这是一辆时尚、现代的保时捷 Panamera Turbo，可通过其独特的尾部设计、“PORSCHE”字样和“Panamera Turbo”徽章识别。车牌号码为“CVC - 911”。
* **场景**：汽车行驶在多车道高速公路上，背景是模糊的树木、远处的建筑物和多云的天空。光线表明当时可能是黄昏或黎明。
* **动态**：图像捕捉到汽车行驶的瞬间，有轻微的动态模糊以体现速度感。

**整体印象**：图像传达出速度、豪华和力量感。这是一张构图精美的照片，突出了汽车的设计和性能。

是否需要我更详细地描述图像的特定方面，或者分析其构图？

✨ 主要特性

多模态处理：支持文本和图像输入，生成文本输出。
大上下文窗口：拥有 128K 大上下文窗口，能处理长文本输入。
多语言支持：支持超 140 种语言，适用于全球用户。
轻量化设计：相对较小的模型尺寸，可在资源有限的环境中部署。

📦 安装指南

按照上述“快速开始”部分的步骤进行安装和配置。

💻 使用示例

基础用法

llama-gemma3-cli -m google_gemma-3-12b-it-q4_k_l.gguf --mmproj google_gemma-3-12b-it-mmproj-bf16.gguf

高级用法

在聊天模式中，使用 /image 命令加载图像，然后输入问题获取图像描述或分析结果。

📚 详细文档

模型格式选择

选择正确的模型格式取决于您的硬件能力和内存限制。

BF16（Brain Float 16） – 适用于支持 BF16 加速的情况

一种 16 位浮点格式，专为更快的计算而设计，同时保持较高的精度。
提供与 FP32 相似的动态范围，但内存使用更低。
若您的硬件支持 BF16 加速（请检查设备规格），建议使用。
与 FP32 相比，适用于高性能推理且内存占用减少的场景。

📌 适用情况： ✔ 您的硬件具有原生 BF16 支持（如较新的 GPU、TPU）。 ✔ 您希望在节省内存的同时获得更高的精度。 ✔ 您计划将模型重新量化为其他格式。

📌 避免情况： ❌ 您的硬件不支持 BF16（可能会回退到 FP32 并运行较慢）。 ❌ 您需要与缺乏 BF16 优化的旧设备兼容。

F16（Float 16） – 比 BF16 更广泛支持

一种 16 位浮点格式，精度较高，但取值范围小于 BF16。
适用于大多数支持 FP16 加速的设备（包括许多 GPU 和一些 CPU）。
数值精度略低于 BF16，但通常足以进行推理。

📌 适用情况： ✔ 您的硬件支持 FP16 但不支持 BF16。 ✔ 您需要在速度、内存使用和准确性之间取得平衡。 ✔ 您在 GPU 或其他针对 FP16 计算优化的设备上运行。

📌 避免情况： ❌ 您的设备缺乏原生 FP16 支持（可能运行比预期慢）。 ❌ 您有内存限制。

量化模型（Q4_K、Q6_K、Q8 等） – 适用于 CPU 和低显存推理

量化可在尽可能保持准确性的同时减小模型大小和内存使用。

低比特模型（Q4_K） → 最适合最小化内存使用，可能精度较低。
高比特模型（Q6_K、Q8_0） → 准确性更好，但需要更多内存。

📌 适用情况： ✔ 您在 CPU 上进行推理，需要优化的模型。 ✔ 您的设备显存较低，无法加载全精度模型。 ✔ 您希望在保持合理准确性的同时减少内存占用。

📌 避免情况： ❌ 您需要最高准确性（全精度模型更适合）。 ❌ 您的硬件有足够的显存支持更高精度的格式（BF16/F16）。

模型格式选择总结表

模型格式	精度	内存使用	设备要求	最佳用例
BF16	最高	高	支持 BF16 的 GPU/CPU	减少内存的高速推理
F16	高	高	支持 FP16 的设备	BF16 不可用时的 GPU 推理
Q4_K	低	极低	CPU 或低显存设备	内存受限环境的最佳选择
Q6_K	中低	低	内存较多的 CPU	量化模型中准确性较好的选择
Q8	中	中等	有足够显存的 CPU 或 GPU	量化模型中准确性最高的选择

包含文件及详情

`google_gemma-3-12b-it-bf16.gguf`

模型权重以 BF16 保存。
若要将模型重新量化为其他格式，可使用此文件。
若您的设备支持 BF16 加速，此文件为最佳选择。

`google_gemma-3-12b-it-f16.gguf`

模型权重以 F16 保存。
若您的设备支持 FP16，尤其是 BF16 不可用时，可使用此文件。

`google_gemma-3-12b-it-bf16-q8.gguf`

输出和嵌入保持为 BF16。
其他层量化为 Q8_0。
若您的设备支持 BF16 且需要量化版本，可使用此文件。

`google_gemma-3-12b-it-f16-q8.gguf`

输出和嵌入保持为 F16。
其他层量化为 Q8_0。

`google_gemma-3-12b-it-q4_k_l.gguf`

输出和嵌入量化为 Q8_0。
其他层量化为 Q4_K。
适合内存有限的 CPU 推理。

`google_gemma-3-12b-it-q4_k_m.gguf`

与 Q4_K 类似。
是低内存 CPU 推理的另一种选择。

`google_gemma-3-12b-it-q4_k_s.gguf`

最小的 Q4_K 变体，以牺牲准确性为代价减少内存使用。
最适合极低内存环境。

`google_gemma-3-12b-it-q6_k_l.gguf`

输出和嵌入量化为 Q8_0。
其他层量化为 Q6_K。

`google_gemma-3-12b-it-q6_k_m.gguf`

中等范围的 Q6_K 量化模型，性能平衡。
适用于中等内存的 CPU 推理。

`google_gemma-3-12b-it-q8.gguf`

完全 Q8 量化的模型，准确性更好。
需要更多内存，但提供更高的精度。

📚 详细文档

Gemma 3 模型卡片

模型页面：Gemma
资源和技术文档：
- [Gemma 3 技术报告][g3-tech-report]
- [负责任的生成式 AI 工具包][rai-toolkit]
- [Kaggle 上的 Gemma][kaggle-gemma]
- [Vertex 模型库中的 Gemma][vertex-mg-gemma3]
使用条款：[条款][terms]
作者：Google DeepMind

模型信息

描述

Gemma 是 Google 推出的一系列轻量级、最先进的开放模型，基于创建 Gemini 模型的相同研究和技术构建。Gemma 3 模型是多模态的，支持处理文本和图像输入并生成文本输出，预训练和指令调优变体的权重均开放。Gemma 3 具有 128K 大上下文窗口，支持超 140 种语言，且比以前的版本有更多尺寸可供选择。Gemma 3 模型适用于各种文本生成和图像理解任务，包括问答、摘要和推理。其相对较小的尺寸使其能够在资源有限的环境中部署，如笔记本电脑、台式机或您自己的云基础设施，使每个人都能使用最先进的 AI 模型，促进创新。

输入和输出

输入：
- 文本字符串，如问题、提示或待摘要的文档。
- 图像，归一化为 896 x 896 分辨率，每个图像编码为 256 个令牌。
- 4B、12B 和 27B 尺寸的总输入上下文为 128K 个令牌，1B 尺寸为 32K 个令牌。
输出：
- 对输入的生成文本响应，如问题的答案、图像内容分析或文档摘要。
- 总输出上下文为 8192 个令牌。

📄 许可证

许可证信息：gemma

🔗 相关链接

如果您觉得这些模型有用，请点赞 ❤️。同时，如果您能测试我的网络监控助手，我将不胜感激。👉 网络监控助手。 💬 点击聊天图标（主页和仪表盘页面右下角），选择一个大语言模型；在 TurboLLM -> FreeLLM -> TestLLM 之间切换。

测试内容

我正在针对我的网络监控服务进行函数调用实验，使用小型开源模型。我关注的问题是“模型可以多小仍能正常工作”。 🟡 TestLLM – 使用 phi-4-mini-q4_0.gguf 运行 Phi - 4 - mini - instruct，在 CPU 虚拟机的 6 个线程上使用 llama.cpp 运行（加载大约需要 15 秒。推理速度较慢，一次只能处理一个用户提示，仍在进行扩展优化！）。如果您感兴趣，我很乐意分享其工作原理。

其他可用的 AI 助手

🟢 TurboLLM – 使用 gpt - 4o - mini，速度快。注意：由于 OpenAI 模型成本较高，令牌有限，但您可以登录或下载免费的网络监控代理以获取更多令牌，也可使用 TestLLM。 🔵 HugLLM – 运行开源的 Hugging Face 模型，速度快。运行小型模型（≈8B），因此质量较低。在 Hugging Face API 可用的情况下，可获得 2 倍的令牌。