license: gemma
base_model:
- google/gemma-3-4b-it
pipeline_tag: image-text-to-text
Gemma 3 模型卡片
模型页面: Gemma
资源与技术文档:
- [Gemma 3 技术报告][g3-tech-report]
- [负责任生成式AI工具包][rai-toolkit]
- [Kaggle上的Gemma][kaggle-gemma]
- [Vertex Model Garden上的Gemma][vertex-mg-gemma3]
使用条款: [条款][terms]
作者: Google DeepMind
模型信息
概述模型功能及输入输出定义。
描述
Gemma是谷歌推出的轻量级尖端开源模型家族,基于与创建Gemini模型相同的研究和技术构建。Gemma 3是多模态模型,可处理文本和图像输入并生成文本输出,其预训练变体和指令调优变体均开放权重。Gemma 3拥有128K的大上下文窗口,支持140多种语言,且提供比前代更多的尺寸选择。该系列模型适用于多种文本生成和图像理解任务,包括问答、摘要和推理。其较小体积使其能在笔记本、台式机或自有云基础设施等资源有限的环境中部署,让尖端AI模型实现民主化访问,助力大众创新。
输入输出
-
输入:
- 文本字符串(如问题、提示或待摘要文档)
- 图像(归一化为896x896分辨率,每张编码为256个token)
- 总输入上下文长度:4B/12B/27B版本为128K token,1B版本为32K token
-
输出:
- 根据输入生成的文本(如问题答案、图像内容分析或文档摘要)
- 总输出上下文长度为8192 token
引用
@article{gemma_2025,
title={Gemma 3},
url={https://goo.gle/Gemma3Report},
publisher={Kaggle},
author={Gemma Team},
year={2025}
}
模型数据
说明训练数据及其处理方式。
训练数据集
模型训练使用的文本数据涵盖多种来源:27B模型训练使用了14万亿token,12B模型12万亿,4B模型4万亿,1B模型2万亿。关键组成部分包括:
- 网络文档:多样化的网页文本确保模型接触广泛的语言风格、主题和词汇,训练数据包含140多种语言内容
- 代码:让模型学习编程语言语法和模式,提升代码生成和代码相关问题理解能力
- 数学:数学文本训练帮助模型掌握逻辑推理和符号表示
- 图像:广泛的图像数据使模型能执行图像分析和视觉数据提取任务
这种多样化数据组合对训练强大的多模态模型至关重要,使其能处理各类任务和数据格式。
数据预处理
关键的数据清洗和过滤方法包括:
- CSAM过滤:在数据准备各阶段严格过滤儿童性虐待材料,确保排除非法有害内容
- 敏感数据过滤:采用自动化技术过滤训练集中的个人信息等敏感数据,确保Gemma预训练模型安全可靠
- 其他方法:根据[安全政策][safety-policies]进行内容质量和安全性过滤
实现信息
模型内部技术细节。
硬件
使用[张量处理单元(TPU)][tpu]硬件(TPUv4p/v5p/v5e)训练。训练视觉语言模型需要强大算力,专为机器学习矩阵运算设计的TPU具有以下优势:
- 性能:专为VLM大规模计算设计,相比CPU显著加速训练
- 内存:大带宽内存支持大模型和批量训练,提升模型质量
- 扩展性:TPU Pod集群可扩展应对大型基础模型的复杂度增长
- 成本效益:相比CPU基础设施,TPU通常能提供更具成本效益的大模型训练方案
- 这些优势符合[谷歌可持续发展承诺][sustainability]
软件
使用[JAX][jax]和[ML Pathways][ml-pathways]进行训练。JAX让研究者能利用TPU等最新硬件高效训练大模型,ML Pathways是谷歌构建跨任务通用AI系统的最新成果,特别适合此类基础模型。如[Gemini模型论文][gemini-2-paper]所述:"JAX和Pathways的'单控制器'编程模型允许单个Python进程协调整个训练流程,极大简化了开发工作流。"
评估
模型评估指标与结果。
基准测试结果
模型在多个数据集和指标上进行评估,覆盖文本生成的不同方面:
推理与事实性
(表格数据保持原格式)
STEM与编程
(表格数据保持原格式)
多语言能力
(表格数据保持原格式)
多模态能力
(表格数据保持原格式)
伦理与安全
伦理安全评估方法与结果。
评估方法
采用结构化评估和内部红队测试,评估团队各有不同目标和人工评估指标。模型在多个伦理安全相关类别接受评估:
- 儿童安全:覆盖儿童性虐待等政策的文生文/图生文提示评估
- 内容安全:包括骚扰、暴力、仇恨言论等安全政策评估
- 表征危害:涵盖偏见、刻板印象等安全政策评估
除开发阶段评估外,还进行"保障评估"——独立于开发团队的内部责任治理决策评估。高层发现会反馈给模型团队,但提示集保密以防止过拟合。评估结果将作为发布审查的一部分提交责任与安全委员会。
评估结果
在所有安全测试领域,相比前代Gemma模型,儿童安全、内容安全和表征危害方面均有显著改进。所有测试均在无安全过滤器情况下进行,模型在各尺寸下都表现出最低政策违规率,且在无根据推断方面较前代有显著提升。评估局限在于仅包含英文提示。
使用与限制
用户需注意的模型限制。
预期用途
开源视觉语言模型(VLM)在各行业领域有广泛应用,以下非穷尽列表展示了模型开发者考虑的部分用例:
- 内容创作与传播
- 文本生成:诗歌、剧本、代码、营销文案、邮件草稿等创意文本
- 聊天机器人:客户服务、虚拟助手等对话接口
- 文本摘要:文献、报告等文本的简明摘要
- 图像数据提取:视觉数据的解释与文本化摘要
- 研究与教育
- NLP与VLM研究:作为算法开发和领域进展的基础
- 语言学习工具:辅助语法纠正和写作练习
- 知识探索:通过生成摘要或回答问题协助研究者
局限性
- 训练数据
- 训练数据的质量和多样性显著影响模型能力,数据偏差或空白会导致响应局限
- 上下文与任务复杂度
- 模型更擅长有清晰提示的任务,开放性或高度复杂任务可能表现不佳
- 上下文长度影响表现(在一定范围内,更长上下文通常带来更好输出)
- 语言歧义与细微差别
- 自然语言固有的复杂性使模型可能难以把握微妙语义、讽刺或比喻
- 事实准确性
- 模型基于训练数据生成响应,并非知识库,可能产生错误或过时陈述
- 常识
伦理考量与风险
开发VLM需考虑以下伦理问题,我们在创建开源模型时已审慎处理:
- 偏见与公平性
- 错误信息与滥用
- 提供[负责任AI工具包][rai-toolkit]指导合理使用
- 透明度与问责
- 本模型卡详述架构、能力、限制和评估流程
- 负责任开发的开源模型通过技术共享促进AI生态系统创新
已识别的风险与缓解措施:
- 偏见延续:建议持续监控(使用评估指标、人工审查)及探索训练/微调阶段的去偏技术
- 有害内容生成:鼓励开发者基于具体产品政策实施内容安全机制
- 恶意滥用:提供技术限制和用户教育,[Gemma禁用政策][prohibited-use]明确禁止用途
- 隐私侵犯:训练数据已过滤特定个人信息,开发者应遵守隐私法规
优势
发布时,该模型家族在同等规模开源模型中展现出更优性能(如基准测试所示),为负责任AI开发提供高性能VLM实现方案。
[链接注释保持原格式]