许可证: gemma
流水线标签: 图文到文本
额外授权标题: 在Hugging Face上访问Gemma
额外授权提示: >-
要访问Hugging Face上的Gemma,您需要审阅并同意Google的使用许可。为此,请确保您已登录Hugging Face并点击下方按钮。请求将立即处理。
额外授权按钮内容: 确认许可
基础模型: google/gemma-3-12b-it
标签:
Gemma 3模型卡片
模型页面: Gemma
[!注意]
本仓库对应Gemma 3模型的12B指令调优版本,采用量化感知训练(QAT)的GGUF格式。该GGUF文件对应Q4_0量化级别。
得益于QAT技术,该模型能在显著降低内存需求的同时,保持与bfloat16
相近的质量表现。
您可以在此处找到半精度版本。
资源与技术文档:
- [Gemma 3技术报告][g3-tech-report]
- [负责任生成式AI工具包][rai-toolkit]
- [Kaggle上的Gemma][kaggle-gemma]
- [Vertex Model Garden中的Gemma][vertex-mg-gemma3]
使用条款: [条款][terms]
作者: Google DeepMind
模型信息
概述模型功能及输入输出定义。
描述
Gemma是谷歌基于创建Gemini模型的相同研究技术构建的轻量级尖端开放模型家族。Gemma 3是多模态模型,可处理文本和图像输入并生成文本输出,其预训练变体和指令调优变体均开放权重。Gemma 3拥有128K的大上下文窗口,支持140多种语言,并提供比前代更多的尺寸选择。Gemma 3模型适用于多种文本生成和图像理解任务,包括问答、摘要和推理。其相对较小的体积使其能在笔记本电脑、台式机或自有云基础设施等资源有限的环境中部署,实现尖端AI模型的普惠化访问。
输入输出
-
输入:
- 文本字符串(如问题/提示/待摘要文档)
- 图像(归一化为896x896分辨率,每张编码为256个token)
- 4B/12B/27B型号支持128K token总输入,1B型号支持32K token
-
输出:
- 响应输入的生成文本(如问题答案/图像内容分析/文档摘要)
- 8192 token的总输出长度
使用示例
快速运行模型的代码片段:
llama.cpp(纯文本)
./llama-cli -hf google/gemma-3-12b-it-qat-q4_0-gguf -p "写一首关于北海巨妖的诗"
llama.cpp(图像输入)
wget https://github.com/bebechien/gemma/blob/main/surprise.png?raw=true -O ~/Downloads/surprise.png
./llama-gemma3-cli -hf google/gemma-3-12b-it-qat-q4_0-gguf -p "描述这张图片" --image ~/Downloads/surprise.png
ollama(纯文本)
当前通过Hugging Face使用GGUF的Ollama暂不支持图像输入,详见私有GGUF运行文档。
ollama run hf.co/google/gemma-3-12b-it-qat-q4_0-gguf
引用
@article{gemma_2025,
title={Gemma 3},
url={https://goo.gle/Gemma3Report},
publisher={Kaggle},
author={Gemma Team},
year={2025}
}
模型数据
训练数据构成及处理方法。
训练数据集
模型训练使用的多源文本数据:
- 网络文档:涵盖140+语言的多样化网络文本
- 代码:帮助模型掌握编程语言模式
- 数学内容:培养逻辑推理能力
- 图像数据:支持视觉分析任务
27B/12B/4B/1B型号分别使用14T/12T/4T/2T token训练。
数据预处理
关键清洗过滤方法:
- CSAM内容分级过滤
- 敏感数据自动过滤
- 基于[安全政策][safety-policies]的质量过滤
实现信息
硬件
使用TPUv4p/v5p/v5e进行训练,优势包括:
- 专为矩阵运算优化的性能
- 大内存带宽支持大批量训练
- TPU Pods的弹性扩展能力
- 符合[谷歌可持续承诺][sustainability]
软件
基于[JAX][jax]和[ML Pathways][ml-pathways]框架开发,延续[Gemini论文][gemini-2-paper]中的"单控制器"编程范式。
评估
基准测试结果
推理与事实性
基准测试 |
1B |
12B |
27B |
HellaSwag |
62.3 |
84.2 |
85.6 |
TriviaQA |
39.8 |
78.2 |
85.5 |
STEM与编程
基准测试 |
4B |
12B |
MMLU |
59.6 |
74.5 |
HumanEval |
36.0 |
45.7 |
多语言能力
基准测试 |
1B |
12B |
Global-MMLU-Lite |
24.9 |
69.4 |
XQuAD |
43.9 |
74.5 |
多模态
基准测试 |
12B |
DocVQA |
82.3 |
TextVQA |
66.5 |
伦理与安全
评估方法
通过结构化评估和内部红队测试验证:
评估结果
相比前代Gemma模型,在所有安全测试领域均显著提升,政策违规率极低(测试仅含英文提示)。
使用限制
适用场景
- 内容创作(文本生成/聊天机器人)
- 研究教育(NLP研究/语言学习)
局限性
- 训练数据偏差可能影响输出
- 对模糊语言/常识推理存在局限
- 可能产生事实性错误
伦理风险
已实施以下缓解措施:
- 持续监控偏见
- 内容安全机制
- 禁止恶意使用政策
- 训练数据隐私过滤
优势
当前同尺寸开放模型中性能领先,评估指标全面优于竞品。
[各链接锚点保持不变]