license: gemma
pipeline_tag: 图文生成文本
extra_gated_heading: 在Hugging Face上获取Gemma权限
extra_gated_prompt: >-
要访问Hugging Face上的Gemma模型,您需要审阅并同意Google的使用许可协议。请确保已登录Hugging Face账号并点击下方按钮,申请将即时处理。
extra_gated_button_content: 确认许可协议
base_model: google/gemma-3-12b-it
tags:
Gemma 3模型卡片
模型主页: Gemma
[!注意]
本仓库提供Gemma 3模型12B指令调优版的GGUF格式量化版本(采用量化感知训练QAT),对应Q4_0量化级别。
通过QAT技术,该模型在显著降低内存占用的同时,能保持与bfloat16
相近的质量表现。
半精度版本可在此获取。
资源与技术文档:
- [Gemma 3技术报告][g3-tech-report]
- [负责任生成式AI工具包][rai-toolkit]
- [Kaggle上的Gemma][kaggle-gemma]
- [Vertex Model Garden中的Gemma][vertex-mg-gemma3]
使用条款: [条款][terms]
研发团队: Google DeepMind
模型信息
模型描述
Gemma是谷歌推出的轻量级尖端开源模型系列,基于与Gemini模型相同的研究技术构建。Gemma 3为多模态模型,支持图文输入与文本输出,提供预训练和指令调优两种权重版本。该系列模型具有128K超大上下文窗口,支持140+种语言,并提供比前代更丰富的参数量级选择(1B/4B/12B/27B),适用于问答、摘要、推理等文本生成与图像理解任务。其紧凑体积使得在笔记本、台式机或自有云设施等资源受限环境中部署成为可能,助力前沿AI技术的普惠化创新。
输入输出说明
- 输入:
- 文本字符串(如问题/提示/待总结文档)
- 图像(归一化为896x896分辨率,编码为256token/张)
- 总输入上下文长度:1B版32K token,其他版本128K token
- 输出:
- 生成的响应文本(如答案/图像分析/文档摘要)
- 总输出上下文长度:8192 token
快速使用
llama.cpp(纯文本)
./llama-cli -hf google/gemma-3-12b-it-qat-q4_0-gguf -p "写一首关于北海巨妖的诗"
llama.cpp(图像输入)
wget https://github.com/bebechien/gemma/blob/main/surprise.png?raw=true -O ~/Downloads/surprise.png
./llama-gemma3-cli -hf google/gemma-3-12b-it-qat-q4_0-gguf -p "描述这张图片" --image ~/Downloads/surprise.png
ollama(纯文本)
当前通过Hugging Face使用GGUF暂不支持图像输入,详见私有GGUF运行文档。
ollama run hf.co/google/gemma-3-12b-it-qat-q4_0-gguf
引用格式
@article{gemma_2025,
title={Gemma 3},
url={https://goo.gle/Gemma3Report},
publisher={Kaggle},
author={Gemma Team},
year={2025}
}
训练数据
训练数据集
模型训练使用了多样化数据源:
- 网络文档:涵盖140+语言的网页文本,确保语言风格/主题/词汇的广泛覆盖
- 代码:帮助模型掌握编程语言语法与模式
- 数学文本:增强逻辑推理与符号处理能力
- 图像数据:支持视觉分析与信息提取
27B/12B/4B/1B模型分别使用14T/12T/4T/2T token进行训练。
数据预处理
- CSAM(儿童性虐待材料)多级过滤
- 敏感数据自动过滤(遵循[安全政策][safety-policies])
- 基于内容质量与安全性的额外过滤
实现细节
硬件
采用TPUv4p/v5p/v5e芯片训练,其优势包括:
- 专为机器学习矩阵运算优化的高性能计算
- 大带宽内存支持大批量训练
- 通过TPU Pod集群实现高效分布式训练
- 符合谷歌可持续发展承诺的能效表现
软件
基于[JAX][jax]与[ML Pathways][ml-pathways]框架开发,延续Gemini模型的"单控制器"编程范式,通过Python进程统一协调训练流程。
评估结果
核心基准测试
推理与事实性
基准测试 |
1B |
4B |
12B |
27B |
HellaSwag (10-shot) |
62.3 |
77.2 |
84.2 |
85.6 |
BoolQ (0-shot) |
63.2 |
72.3 |
78.8 |
82.4 |
TriviaQA (5-shot) |
39.8 |
65.8 |
78.2 |
85.5 |
STEM与编程
基准测试 |
4B |
12B |
27B |
MMLU (5-shot) |
59.6 |
74.5 |
78.6 |
GSM8K (8-shot) |
38.4 |
71.0 |
82.6 |
HumanEval (0-shot) |
36.0 |
45.7 |
48.8 |
多语言能力
基准测试 |
1B |
4B |
12B |
27B |
MGSM |
2.04 |
34.7 |
64.3 |
74.3 |
XQuAD (all) |
43.9 |
68.0 |
74.5 |
76.8 |
多模态表现
基准测试 |
4B |
12B |
27B |
COCOcap |
102 |
111 |
116 |
DocVQA (val) |
72.8 |
82.3 |
85.6 |
TextVQA (val) |
58.9 |
66.5 |
68.6 |
伦理与安全
评估方法
通过结构化评估与内部红队测试验证模型安全性,涵盖:
- 儿童安全(CSAM相关策略)
- 内容安全(暴力/仇恨言论等)
- 表征危害(偏见/刻板印象)
评估结果较前代模型有显著提升,所有测试均未启用安全过滤器以准确评估模型原始能力。当前局限在于仅测试英文提示。
使用限制
- 训练数据局限性:数据偏差可能影响输出质量
- 事实准确性:可能生成过时或错误信息
- 常识缺失:某些场景缺乏人类级推理能力
- 语言歧义:对反讽/隐喻理解有限
伦理风险应对
- 偏见缓解:持续监控+去偏技术应用
- 有害内容:开发者需根据应用场景部署内容安全机制
- 恶意滥用:遵循[禁止使用政策][prohibited-use],建立用户举报渠道
- 隐私保护:训练数据已过滤敏感信息,开发者需遵守隐私法规
应用场景
- 内容创作:文案/诗歌生成、图像信息提取
- 研究教育:NLP基础研究、语言学习辅助
- 智能对话:客服机器人/虚拟助手开发
[各链接地址与原文档保持一致]