license: gemma
pipeline_tag: image-text-to-text
extra_gated_heading: 访问Hugging Face上的Gemma
extra_gated_prompt: >-
要访问Hugging Face上的Gemma,您需要审阅并同意Google的使用许可。为此,请确保您已登录Hugging Face并点击下方按钮。请求将立即处理。
extra_gated_button_content: 确认许可
base_model: google/gemma-3-12b-pt
tags:
Gemma 3模型卡
模型页面: Gemma
[!注意]
本仓库对应Gemma 3模型的12B**预训练(基础)**版本,采用量化感知训练(QAT)的GGUF格式。此GGUF文件为Q4_0量化版本。大多数场景下,建议使用指令调优(IT)版GGUF。
得益于QAT技术,该模型在显著降低内存占用的同时,能保持与bfloat16
相近的质量表现。
半精度版本可在此获取,指令调优模型的QAT版本请访问hf.co/google/gemma-3-12b-it-qat-q4_0-gguf。
资源与技术文档:
- [Gemma 3技术报告][g3-tech-report]
- [负责任生成式AI工具包][rai-toolkit]
- [Kaggle上的Gemma][kaggle-gemma]
- [Vertex Model Garden中的Gemma][vertex-mg-gemma3]
使用条款: [条款][terms]
作者: Google DeepMind
模型信息
概述模型功能及输入输出定义。
描述
Gemma是Google推出的轻量级尖端开源模型家族,基于与Gemini模型相同的研究技术构建。Gemma 3为多模态模型,支持文本与图像输入并生成文本输出,同时提供预训练和指令调优两种变体的开放权重。该系列模型拥有128K的超长上下文窗口,支持140多种语言,且型号选择比前代更丰富。Gemma 3适用于问答、摘要、推理等多种文本生成与图像理解任务,其紧凑体积使其可部署于笔记本、台式机或自有云基础设施等资源受限环境,推动尖端AI技术的普惠化创新。
输入输出
- 输入:
- 文本字符串(如问题、提示或待总结文档)
- 图像(归一化为896x896分辨率并编码为256 token/张)
- 总输入上下文长度:4B/12B/27B型号支持128K token,1B型号支持32K token
- 输出:
- 根据输入生成的响应文本(如问题答案、图像内容分析或文档摘要)
- 总输出上下文长度:8192 token
使用示例
快速运行模型的代码片段:
llama.cpp(纯文本)
./llama-cli -hf google/gemma-3-12b-pt-qat-q4_0-gguf -p "那是个风雨交加的夜晚。"
ollama(纯文本)
当前通过Hugging Face使用GGUF暂不支持图像输入,详见私有GGUF运行文档。
ollama run hf.co/google/gemma-3-12b-pt-qat-q4_0-gguf
引用
@article{gemma_2025,
title={Gemma 3},
url={https://goo.gle/Gemma3Report},
publisher={Kaggle},
author={Gemma Team},
year={2025}
}
模型数据
训练数据及预处理方法。
训练数据集
模型训练使用的文本数据涵盖多元来源:27B模型训练14万亿token,12B模型12万亿token,4B模型4万亿token,1B模型2万亿token。关键组成部分包括:
- 网络文档:多样化网页文本确保模型接触广泛的语言风格、主题与词汇,覆盖140+种语言
- 代码:帮助模型掌握编程语言语法模式,提升代码生成与理解能力
- 数学:训练模型进行逻辑推理与符号化表达
- 图像:支持视觉数据分析任务
数据预处理
关键清洗与过滤方法:
- CSAM过滤:多阶段严格过滤儿童性虐待材料
- 敏感数据过滤:自动过滤个人信息等敏感内容
- 其他方法:基于[安全政策][safety-policies]的内容质量与安全性过滤
实现信息
模型内部技术细节。
硬件
使用[TPU][tpu](TPUv4p/v5p/v5e)训练。TPU专为机器学习矩阵运算设计,具备以下优势:
- 性能:显著加速训练过程
- 内存:大带宽内存支持大批量训练
- 扩展性:TPU Pod集群可分布式训练大模型
- 成本效益:相比CPU基础设施更具性价比
符合[Google可持续发展承诺][sustainability]
软件
基于[JAX][jax]和[ML Pathways][ml-pathways]训练。JAX支持新一代硬件加速,ML Pathways是Google构建跨任务通用AI系统的框架,两者结合实现如[Gemini论文][gemini-2-paper]所述的"单控制器"编程范式。
评估
模型性能指标与结果。
基准测试结果
推理与事实性
基准测试 |
指标 |
1B |
4B |
12B |
27B |
HellaSwag |
10-shot |
62.3 |
77.2 |
84.2 |
85.6 |
BoolQ |
0-shot |
63.2 |
72.3 |
78.8 |
82.4 |
...(其他基准测试结果保持表格格式)... |
|
|
|
|
|
STEM与代码
(保持原表格结构及链接注释)
多语言能力
(保持原表格结构及链接注释)
多模态能力
(保持原表格结构及链接注释)
伦理与安全
安全评估方法与结果。
评估方法
采用结构化评估与内部红队测试,覆盖:
- 儿童安全:文本/图像生成内容审查
- 内容安全:暴力、仇恨言论等政策符合性
- 表征危害:偏见与刻板印象分析
评估结果
相比前代模型,所有尺寸模型在安全违规方面表现显著改善,但评估目前仅限英语提示。
使用与限制
适用场景
- 内容创作:诗歌、代码、营销文案生成
- 研究教育:NLP研究、语言学习辅助
- 知识探索:文献摘要生成
局限性
- 训练数据偏差可能影响输出
- 复杂任务或模糊语言处理存在挑战
- 可能产生事实性错误
伦理风险与缓解
- 偏见延续:建议持续监控并采用去偏技术
- 有害内容:开发者需实施内容安全措施
- 隐私保护:训练数据已过滤敏感信息
优势
当前版本在同类开源模型中性能领先,评估指标显示其卓越表现。
(保留所有原始文献链接注释)