模型简介
模型特点
模型能力
使用案例
🚀 Gemma-3 4B指令式GGUF模型
Gemma-3 4B指令式GGUF模型是基于Transformer架构的图像识别模型,可处理文本和图像输入并生成文本输出,适用于多种文本生成和图像理解任务。
🚀 快速开始
使用llama.cpp运行Gemma 3 Vision
若要在llama.cpp
中使用Gemma 3 Vision的实验性支持,请按以下步骤操作:
- 克隆最新的llama.cpp仓库:
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
- 构建Llama.cpp:
按照常规方式构建llama.cpp:构建项目。
构建完成后,将
./llama.cpp/build/bin/llama-gemma3-cli
复制到指定文件夹。 - 下载Gemma 3的gguf文件:
访问Gemma 3 gguf文件,选择名称中不包含
mmproj
的gguf文件。 例如:google_gemma-3-4b-it-q4_k_l.gguf,将该文件复制到指定文件夹。 - 下载Gemma 3的mmproj文件:
访问Gemma 3 mmproj文件,选择名称中包含
mmproj
的文件。 例如:google_gemma-3-4b-it-mmproj-bf16.gguf,将该文件复制到指定文件夹。 - 复制图像到指定文件夹: 将图像复制到与gguf文件相同的文件夹,或者相应地更改路径。 例如:car-1.jpg,将该文件复制到指定文件夹。
- 运行CLI工具: 在指定文件夹中运行以下命令:
llama-gemma3-cli -m google_gemma-3-4b-it-q4_k_l.gguf --mmproj google_gemma-3-4b-it-mmproj-bf16.gguf
运行在聊天模式下,可用命令如下:
/image <路径> 加载图像
/clear 清除聊天历史
/quit 或 /exit 退出程序
> /image car-1.jpg
编码图像 car-1.jpg
图像编码耗时 46305 毫秒
图像解码耗时 19302 毫秒
> 图像内容是什么
以下是图像内容的详细描述:
**主体**:主要主体是一辆黑色保时捷Panamera Turbo在高速公路上行驶。
**细节**:
* **汽车**:这是一辆时尚、现代的保时捷Panamera Turbo,可通过其独特的尾部设计、“PORSCHE”字样和“Panamera Turbo”标志识别。车牌号码为“CVC - 911”。
* **场景**:汽车行驶在多车道高速公路上,背景是模糊的树木、远处的建筑物和多云的天空。光线表明当时可能是黄昏或黎明。
* **动态**:图像捕捉到汽车行驶的瞬间,有轻微的动态模糊以体现速度感。
**整体印象**:图像传达出速度、豪华和力量感。这是一张构图精美的照片,突出了汽车的设计和性能。
是否需要我更详细地描述图像的特定方面,或者分析其构图?
✨ 主要特性
模型测试
如果您觉得这些模型有用,请点赞❤️。同时,如果您能测试我的网络监控助手,我将不胜感激👉 网络监控助手。 💬 点击聊天图标(主页和仪表盘页面右下角),选择一个大语言模型;在不同类型的大语言模型之间切换:TurboLLM -> FreeLLM -> TestLLM。
测试内容
我正在针对我的网络监控服务进行函数调用实验,使用小型开源模型。我关注的问题是“模型可以多小且仍能正常工作”。
🟡 TestLLM – 使用phi - 4 - mini - instruct
和phi - 4 - mini - q4_0.gguf
,在CPU虚拟机的6个线程上运行llama.cpp(加载大约需要15秒,推理速度较慢,且一次只能处理一个用户提示,仍在进行扩展优化!)。如果您感兴趣,我很乐意分享其工作原理。
其他可用的AI助手
🟢 TurboLLM – 使用gpt - 4o - mini,速度快!注意:由于OpenAI模型成本较高,令牌有限,但您可以登录或下载免费的网络监控代理以获取更多令牌,或者使用TestLLM。 🔵 HugLLM – 运行开源Hugging Face模型,速度快,运行小型模型(≈8B),因此质量稍低,可获得2倍的令牌(取决于Hugging Face API的可用性)。
选择合适的模型格式
选择正确的模型格式取决于您的硬件能力和内存限制。
BF16(脑浮点16) – 若支持BF16加速则使用
- 一种16位浮点格式,旨在实现更快的计算,同时保持良好的精度。
- 提供与FP32 相似的动态范围,但内存使用更低。
- 如果您的硬件支持BF16加速(请检查设备规格),建议使用。
- 与FP32相比,适用于高性能推理且内存占用减少。
📌 适用场景: ✔ 您的硬件具有原生BF16支持(例如,较新的GPU、TPU)。 ✔ 您希望在节省内存的同时获得更高的精度。 ✔ 您计划将模型重新量化为其他格式。
📌 避免场景: ❌ 您的硬件不支持BF16(可能会回退到FP32并运行较慢)。 ❌ 您需要与缺乏BF16优化的旧设备兼容。
F16(浮点16) – 比BF16更广泛支持
- 一种16位浮点格式,精度较高,但取值范围比BF16小。
- 适用于大多数支持FP16加速的设备(包括许多GPU和一些CPU)。
- 数值精度略低于BF16,但通常足以进行推理。
📌 适用场景: ✔ 您的硬件支持FP16但不支持BF16。 ✔ 您需要在速度、内存使用和准确性之间取得平衡。 ✔ 您在GPU或其他针对FP16计算优化的设备上运行。
📌 避免场景: ❌ 您的设备缺乏原生FP16支持(可能运行速度比预期慢)。 ❌ 您有内存限制。
量化模型(Q4_K、Q6_K、Q8等) – 适用于CPU和低显存推理
量化可在尽可能保持准确性的同时减小模型大小和内存使用。
- 低比特模型(Q4_K) → 内存使用最少,但精度可能较低。
- 高比特模型(Q6_K、Q8_0) → 准确性更好,但需要更多内存。
📌 适用场景: ✔ 您在CPU上进行推理,需要优化的模型。 ✔ 您的设备显存较低,无法加载全精度模型。 ✔ 您希望在保持合理准确性的同时减少内存占用。
📌 避免场景: ❌ 您需要最高的准确性(全精度模型更适合)。 ❌ 您的硬件有足够的显存支持更高精度的格式(BF16/F16)。
模型格式选择总结表
属性 | 详情 |
---|---|
模型类型 | BF16:精度最高,内存使用高,需要支持BF16的GPU/CPU,适用于高速推理且减少内存使用的场景;F16:精度高,内存使用高,需要支持FP16的设备,适用于BF16不可用时的GPU推理;Q4_K:精度低,内存使用极低,适用于CPU或低显存设备,适合内存受限的环境;Q6_K:精度中等偏低,内存使用低,适用于有更多内存的CPU,在量化模型中准确性较好;Q8:精度中等,内存使用适中,需要有足够显存的CPU或GPU,在量化模型中准确性最佳。 |
训练数据 | 未提及 |
包含的文件及详情
google_gemma-3-4b-it-bf16.gguf
- 模型权重以BF16格式保存。
- 如果您想将模型重新量化为其他格式,请使用此文件。
- 若您的设备支持BF16加速,此文件为最佳选择。
google_gemma-3-4b-it-f16.gguf
- 模型权重以F16格式保存。
- 如果您的设备支持FP16,尤其是在BF16不可用时,请使用此文件。
google_gemma-3-4b-it-bf16-q8.gguf
- 输出和嵌入保持为BF16格式。
- 其他所有层量化为Q8_0。
- 如果您的设备支持BF16且需要量化版本,请使用此文件。
google_gemma-3-4b-it-f16-q8.gguf
- 输出和嵌入保持为F16格式。
- 其他所有层量化为Q8_0。
google_gemma-3-4b-it-q4_k_l.gguf
- 输出和嵌入量化为Q8_0。
- 其他所有层量化为Q4_K。
- 适用于内存有限的CPU推理。
google_gemma-3-4b-it-q4_k_m.gguf
- 与Q4_K类似。
- 是低内存CPU推理的另一种选择。
google_gemma-3-4b-it-q4_k_s.gguf
- 最小的Q4_K变体,以牺牲准确性为代价减少内存使用。
- 最适合极低内存的设置。
google_gemma-3-4b-it-q6_k_l.gguf
- 输出和嵌入量化为Q8_0。
- 其他所有层量化为Q6_K。
google_gemma-3-4b-it-q6_k_m.gguf
- 中等范围的Q6_K量化模型,性能平衡。
- 适用于中等内存的基于CPU的推理。
google_gemma-3-4b-it-q8.gguf
- 完全Q8量化的模型,准确性更好。
- 需要更多内存,但提供更高的精度。
📚 详细文档
Gemma 3模型卡片
模型页面:Gemma
资源和技术文档:
- [Gemma 3技术报告][g3-tech-report]
- [负责任的生成式AI工具包][rai-toolkit]
- [Kaggle上的Gemma][kaggle-gemma]
- [Vertex模型库中的Gemma 3][vertex-mg-gemma3]
使用条款:[条款][terms]
作者:Google DeepMind
模型信息
描述
Gemma是谷歌推出的一系列轻量级、先进的开源模型,基于与Gemini模型相同的研究和技术构建。Gemma 3模型是多模态的,可处理文本和图像输入并生成文本输出,预训练变体和指令微调变体的权重均开源。Gemma 3具有128K的大上下文窗口,支持超过140种语言,且比以前的版本有更多的尺寸可供选择。Gemma 3模型非常适合各种文本生成和图像理解任务,包括问答、摘要和推理。其相对较小的尺寸使其能够部署在资源有限的环境中,如笔记本电脑、台式机或您自己的云基础设施,使先进的AI模型更普及,促进每个人的创新。
输入和输出
- 输入:
- 文本字符串,如问题、提示或待总结的文档。
- 图像,归一化为896 x 896分辨率,每个图像编码为256个令牌。
- 4B、12B和27B尺寸的总输入上下文为128K个令牌,1B尺寸的总输入上下文为32K个令牌。
- 输出:
- 针对输入生成的文本,如问题的答案、图像内容分析或文档摘要。
- 总输出上下文为8192个令牌。
📄 许可证
许可证信息:gemma
致谢
感谢Bartowski上传imartix文件,并在量化方面给予指导,使我能够生成这些gguf文件。








