base_model: google/gemma-3-4b-it
license: gemma
tags:
- gemma3
- gemma
- google
pipeline_tag: image-text-to-text
Gemma 3 模型卡片
模型页面: Gemma
[!注意]
本仓库对应Gemma 3模型4B指令调优版本的GGUF格式量化模型,采用量化感知训练(QAT)技术。
该GGUF文件采用Q4_0量化级别。
得益于QAT技术,该模型在显著降低内存占用的同时,能保持与bfloat16
版本相近的质量表现。
半精度版本可在此获取:链接
资源与技术文档:
- [Gemma 3技术报告][g3-tech-report]
- [负责任生成式AI工具包][rai-toolkit]
- [Kaggle平台上的Gemma][kaggle-gemma]
- [Vertex Model Garden中的Gemma][vertex-mg-gemma3]
使用条款: [条款][terms]
研发团队: Google DeepMind
模型信息
概述模型功能及输入输出定义。
模型描述
Gemma是谷歌推出的轻量级尖端开源模型系列,基于与Gemini模型相同的研究技术构建。Gemma 3为多模态模型,可处理文本与图像输入并生成文本输出,其预训练版本和指令调优版本均开放权重。Gemma 3具备128K超大上下文窗口,支持140多种语言,且提供比前代更丰富的参数量级选择。该系列模型适用于问答、摘要、推理等多种文本生成与图像理解任务,其紧凑体积使其可部署于笔记本、台式机等资源受限环境,推动尖端AI技术的普惠化应用。
输入输出
-
输入:
- 文本字符串(如问题/提示/待总结文档)
- 图像(归一化为896x896分辨率并编码为256个token/张)
- 总输入上下文长度:4B/12B/27B版本支持128K tokens,1B版本支持32K tokens
-
输出:
- 根据输入生成的响应文本(如问题答案/图像内容分析/文档摘要)
- 总输出上下文长度:8192 tokens
使用示例
快速运行模型的代码片段:
llama.cpp(纯文本)
./llama-cli -hf google/gemma-3-4b-it-qat-q4_0-gguf -p "写一首关于北海巨妖的诗"
llama.cpp(图像输入)
wget https://github.com/bebechien/gemma/blob/main/surprise.png?raw=true -O ~/Downloads/surprise.png
./llama-gemma3-cli -hf google/gemma-3-4b-it-qat-q4_0-gguf -p "描述这张图片" --image ~/Downloads/surprise.png
ollama(纯文本)
当前Ollama通过Hugging Face使用GGUF暂不支持图像输入,详见私有GGUF运行文档。
ollama run hf.co/google/gemma-3-4b-it-qat-q4_0-gguf
引用格式
@article{gemma_2025,
title={Gemma 3},
url={https://goo.gle/Gemma3Report},
publisher={Kaggle},
author={Gemma Team},
year={2025}
}
模型数据
训练数据构成及预处理方法。
训练数据集
各版本模型训练数据量:27B版14万亿tokens,12B版12万亿tokens,4B版4万亿tokens,1B版2万亿tokens。核心数据组件包括:
- 网络文档:覆盖140+语言的多样化网页文本
- 代码:提升编程语言理解与生成能力
- 数学:增强逻辑推理与符号处理能力
- 图像:支持视觉数据分析任务
数据预处理
关键清洗过滤方法:
- CSAM过滤:多阶段儿童安全内容过滤
- 敏感数据过滤:自动移除个人信息
- 质量与安全过滤:遵循[安全政策][safety-policies]
实现细节
硬件配置
采用TPUv4p/v5p/v5e芯片训练,优势包括:
- 性能:专为机器学习矩阵运算优化
- 内存:高带宽内存支持大批量训练
- 扩展性:TPU Pod集群实现分布式训练
- 成本效益:相比CPU基础设施更具性价比
- 符合[谷歌可持续发展承诺][sustainability]
软件栈
基于[JAX][jax]和[ML Pathways][ml-pathways]框架开发,继承[Gemini模型][gemini-2-paper]的"单控制器"编程范式。
评估结果
[!注意]
本节评估基于原始checkpoint,非QAT版本。
基准测试
推理与事实性
基准测试 |
1B |
4B |
12B |
27B |
HellaSwag(10-shot) |
62.3 |
77.2 |
84.2 |
85.6 |
BoolQ(0-shot) |
63.2 |
72.3 |
78.8 |
82.4 |
STEM与编程
基准测试 |
4B |
12B |
27B |
MMLU(5-shot) |
59.6 |
74.5 |
78.6 |
MBPP(3-shot) |
46.0 |
60.4 |
65.6 |
多语言能力
基准测试 |
1B |
4B |
12B |
27B |
MGSM |
2.04 |
34.7 |
64.3 |
74.3 |
XQuAD(全语种) |
43.9 |
68.0 |
74.5 |
76.8 |
多模态能力
基准测试 |
4B |
12B |
27B |
COCOcap |
102 |
111 |
116 |
DocVQA(val) |
72.8 |
82.3 |
85.6 |
伦理与安全
评估方法
通过结构化评估与内部红队测试验证以下方面:
- 儿童安全:涵盖儿童性虐待内容检测
- 内容安全:包括骚扰/暴力/仇恨言论识别
- 表征危害:评估偏见/刻板印象等问题
评估结果
相比前代Gemma模型,在所有安全测试类别中均取得显著改进。测试显示模型在无安全过滤时政策违规率极低,但当前评估仅含英语提示。
使用限制
适用场景
- 内容创作:文本/代码生成、聊天机器人
- 研究教育:NLP研究、语言学习辅助
- 视觉分析:图像数据提取与解释
局限性
- 训练数据偏差可能影响输出质量
- 复杂任务或开放性问题处理能力有限
- 可能生成事实性错误或缺乏常识的回应
伦理风险
- 偏见传播:建议持续监控并采用去偏技术
- 有害内容:开发者需根据应用场景实施内容安全措施
- 隐私保护:训练数据已过滤敏感信息,开发者需遵守隐私法规
核心优势
当前开源的视觉语言模型中,本系列在同等规模下展现出卓越的性能表现与负责任AI设计理念。
[各链接锚点保持原英文不变]