开源Gemma 3轻量级多模态模型 - 支持文本图像输入，多语言文本输出！

首页

Gemma 3 12b It Qat Int4 Unquantized

由 google 开发

Gemma 3是Google推出的轻量级多模态开放模型，支持文本和图像输入，生成文本输出，具有128K大上下文窗口和多语言能力。

图像生成文本

Transformers

#多模态理解 #128K长上下文 #多语言支持

下载量 1,358

发布时间 : 4/9/2025

模型简介

Gemma 3是基于Gemini技术构建的轻量级开放模型系列，12B版本经过指令调优和量化感知训练(QAT)，适合文本生成、图像理解等任务，可在资源有限环境中部署。

模型特点

多模态能力

支持文本和图像输入，能处理复杂的多模态任务

大上下文窗口

128K token的上下文长度，适合处理长文档和复杂任务

量化感知训练

采用QAT技术，可在保持质量的同时显著降低内存需求

多语言支持

支持超过140种语言，具备全球适用性

模型能力

文本生成

图像内容分析

多语言处理

问答系统

文档摘要

逻辑推理

代码生成

数学问题解决

使用案例

内容生成

自动摘要

对长文档生成简洁准确的摘要

在Natural Questions基准上达到36.1分(5-shot)

创意写作

根据提示生成故事、诗歌等创意内容

视觉理解

图像描述

为图像生成详细的文字描述

在COCOcap基准上达到116分

文档分析

从扫描文档中提取和理解信息

在DocVQA基准上达到85.6分

教育

数学辅导

解答数学问题并解释解题步骤

在GSM8K基准上达到82.6分(8-shot)

语言学习

提供多语言翻译和学习辅助

在WMT24++基准上达到55.7分(ChrF)

🚀 Gemma 3模型卡片

Gemma 3是谷歌推出的轻量级、最先进的多模态开放模型，可处理文本和图像输入并生成文本输出。它具有128K大上下文窗口，支持超140种语言，适用于文本生成和图像理解等多种任务。

🚀 快速开始

本仓库对应Gemma 3模型使用量化感知训练（QAT）的12B 指令调优 版本。

⚠️ 重要提示

本仓库中的检查点未量化，请确保使用您喜欢的工具将其量化为int4。

得益于QAT，该模型在显著降低加载模型的内存要求的同时，能够保持与bfloat16相似的质量。

模型页面：Gemma

资源和技术文档：

使用条款：条款

作者：Google DeepMind

✨ 主要特性

模型信息

描述

Gemma是谷歌推出的一系列轻量级、最先进的开放模型，基于与创建Gemini模型相同的研究和技术构建。Gemma 3模型是多模态的，能够处理文本和图像输入，并生成文本输出。其预训练变体和指令调优变体的权重均开放。Gemma 3具有128K的大上下文窗口，支持超过140种语言，并且比以前的版本有更多的尺寸可供选择。Gemma 3模型非常适合各种文本生成和图像理解任务，包括问答、摘要和推理。它们相对较小的尺寸使得可以在资源有限的环境中部署，如笔记本电脑、台式机或您自己的云基础设施，从而使更多人能够使用最先进的AI模型，促进创新。

输入和输出

输入：
- 文本字符串，例如问题、提示或待总结的文档。
- 图像，归一化为896 x 896分辨率，并编码为每个256个标记。
- 4B、12B和27B尺寸的总输入上下文为128K标记，1B尺寸的总输入上下文为32K标记。
输出：
- 针对输入生成的文本，例如问题的答案、图像内容的分析或文档的摘要。
- 总输出上下文为8192个标记。

引用

@article{gemma_2025,
    title={Gemma 3},
    url={https://goo.gle/Gemma3Report},
    publisher={Kaggle},
    author={Gemma Team},
    year={2025}
}

模型数据

训练数据集

这些模型在包含多种来源的文本数据集上进行训练。27B模型使用14万亿个标记进行训练，12B模型使用12万亿个标记进行训练，4B模型使用4万亿个标记进行训练，1B模型使用2万亿个标记进行训练。以下是关键组成部分：

网页文档：多样化的网页文本集合确保模型接触到广泛的语言风格、主题和词汇。训练数据集包含超过140种语言的内容。
代码：让模型接触代码有助于它学习编程语言的语法和模式，从而提高其生成代码和理解与代码相关问题的能力。
数学：在数学文本上进行训练有助于模型学习逻辑推理、符号表示和解决数学查询。
图像：广泛的图像使模型能够执行图像分析和视觉数据提取任务。

这些多样化数据源的组合对于训练一个强大的多模态模型至关重要，该模型能够处理各种不同的任务和数据格式。

数据预处理

以下是应用于训练数据的关键数据清理和过滤方法：

CSAM过滤：在数据准备过程的多个阶段应用了严格的CSAM（儿童性虐待材料）过滤，以确保排除有害和非法内容。
敏感数据过滤：作为使Gemma预训练模型安全可靠的一部分，使用自动化技术从训练集中过滤掉某些个人信息和其他敏感数据。
其他方法：根据内容质量和安全性进行过滤，符合我们的政策。

实现信息

硬件

Gemma使用张量处理单元（TPU）硬件（TPUv4p、TPUv5p和TPUv5e）进行训练。训练视觉语言模型（VLM）需要大量的计算能力。TPU专门为机器学习中常见的矩阵运算而设计，在这一领域具有以下优势：

性能：TPU专门设计用于处理训练VLM所涉及的大量计算。与CPU相比，它们可以显著加速训练。
内存：TPU通常配备大量的高带宽内存，允许在训练期间处理大型模型和批量大小。这可以提高模型质量。
可扩展性：TPU Pod（大型TPU集群）为处理大型基础模型日益增长的复杂性提供了可扩展的解决方案。您可以在多个TPU设备上分布训练，以实现更快、更高效的处理。
成本效益：在许多情况下，与基于CPU的基础设施相比，TPU可以为训练大型模型提供更具成本效益的解决方案，特别是考虑到由于更快的训练而节省的时间和资源。
这些优势符合谷歌对可持续运营的承诺。

软件

训练使用JAX和ML Pathways进行。

JAX允许研究人员利用最新一代的硬件（包括TPU）来更快、更高效地训练大型模型。ML Pathways是谷歌构建能够跨多个任务进行泛化的人工智能系统的最新努力。这特别适用于基础模型，包括像这样的大型语言模型。

JAX和ML Pathways一起使用，如关于Gemini系列模型的论文中所述：“Jax和Pathways的‘单控制器’编程模型允许单个Python进程编排整个训练运行，极大地简化了开发工作流程。”

评估

⚠️ 重要提示

本节中的评估对应于原始检查点，而不是QAT检查点。

基准测试结果

这些模型针对大量不同的数据集和指标进行了评估，以涵盖文本生成的不同方面：

推理和事实性

基准测试	指标	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[HellaSwag][hellaswag]	10-shot	62.3	77.2	84.2	85.6
[BoolQ][boolq]	0-shot	63.2	72.3	78.8	82.4
[PIQA][piqa]	0-shot	73.8	79.6	81.8	83.3
[SocialIQA][socialiqa]	0-shot	48.9	51.9	53.4	54.9
[TriviaQA][triviaqa]	5-shot	39.8	65.8	78.2	85.5
[Natural Questions][naturalq]	5-shot	9.48	20.0	31.4	36.1
[ARC-c][arc]	25-shot	38.4	56.2	68.9	70.6
[ARC-e][arc]	0-shot	73.0	82.4	88.3	89.0
[WinoGrande][winogrande]	5-shot	58.2	64.7	74.3	78.8
[BIG-Bench Hard][bbh]	few-shot	28.4	50.9	72.6	77.7
[DROP][drop]	1-shot	42.4	60.1	72.2	77.2

STEM和代码

基准测试	指标	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[MMLU][mmlu]	5-shot	59.6	74.5	78.6
[MMLU][mmlu] (Pro COT)	5-shot	29.2	45.3	52.2
[AGIEval][agieval]	3 - 5-shot	42.1	57.4	66.2
[MATH][math]	4-shot	24.2	43.3	50.0
[GSM8K][gsm8k]	8-shot	38.4	71.0	82.6
[GPQA][gpqa]	5-shot	15.0	25.4	24.3
[MBPP][mbpp]	3-shot	46.0	60.4	65.6
[HumanEval][humaneval]	0-shot	36.0	45.7	48.8

多语言

基准测试	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[MGSM][mgsm]	2.04	34.7	64.3	74.3
[Global-MMLU-Lite][global-mmlu-lite]	24.9	57.0	69.4	75.7
[WMT24++][wmt24pp] (ChrF)	36.7	48.4	53.9	55.7
[FloRes][flores]	29.5	39.2	46.0	48.8
[XQuAD][xquad] (all)	43.9	68.0	74.5	76.8
[ECLeKTic][eclektic]	4.69	11.0	17.2	24.4
[IndicGenBench][indicgenbench]	41.4	57.2	61.7	63.4

多模态

基准测试	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[COCOcap][coco-cap]	102	111	116
[DocVQA][docvqa] (val)	72.8	82.3	85.6
[InfoVQA][info-vqa] (val)	44.1	54.8	59.4
[MMMU][mmmu] (pt)	39.2	50.3	56.1
[TextVQA][textvqa] (val)	58.9	66.5	68.6
[RealWorldQA][realworldqa]	45.5	52.2	53.9
[ReMI][remi]	27.3	38.5	44.8
[AI2D][ai2d]	63.2	75.2	79.0
[ChartQA][chartqa]	63.6	74.7	76.3
[VQAv2][vqav2]	63.9	71.2	72.9
[BLINK][blinkvqa]	38.0	35.9	39.6
[OKVQA][okvqa]	51.0	58.7	60.2
[TallyQA][tallyqa]	42.5	51.8	54.3
[SpatialSense VQA][ss-vqa]	50.9	60.0	59.4
[CountBenchQA][countbenchqa]	26.1	17.8	68.0

伦理与安全

评估方法

我们的评估方法包括结构化评估和对相关内容政策的内部红队测试。红队测试由多个不同的团队进行，每个团队有不同的目标和人工评估指标。这些模型针对与伦理和安全相关的多个不同类别进行了评估，包括：

儿童安全：评估涵盖儿童安全政策的文本到文本和图像到文本提示，包括儿童性虐待和剥削。
内容安全：评估涵盖安全政策的文本到文本和图像到文本提示，包括骚扰、暴力和血腥内容以及仇恨言论。
代表性危害：评估涵盖安全政策的文本到文本和图像到文本提示，包括偏见、刻板印象和有害关联或不准确信息。

除了开发阶段的评估，我们还进行“保证评估”，这是我们用于责任治理决策的“独立”内部评估。这些评估与模型开发团队分开进行，以提供有关发布的决策信息。高层级的发现会反馈给模型团队，但提示集不会公开，以防止过拟合并保持结果为决策提供信息的能力。保证评估结果作为发布审查的一部分报告给我们的责任与安全委员会。

评估结果

在所有安全测试领域，与之前的Gemma模型相比，我们在儿童安全、内容安全和代表性危害类别中看到了重大改进。所有测试均在没有安全过滤器的情况下进行，以评估模型的能力和行为。对于文本到文本和图像到文本，以及所有模型尺寸，模型产生的政策违规最少，并且在无根据推断方面比之前的Gemma模型表现出显著改进。我们评估的一个局限性是只包括英语提示。

使用与限制

预期用途

开放视觉语言模型（VLM）在各个行业和领域有广泛的应用。以下潜在用途列表并不全面。此列表的目的是提供有关模型创建者在模型训练和开发过程中考虑的可能用例的上下文信息。

内容创作与沟通
- 文本生成：这些模型可用于生成创意文本格式，如诗歌、脚本、代码、营销文案和电子邮件草稿。
- 聊天机器人和对话式AI：为客户服务、虚拟助手或交互式应用程序提供对话界面。
- 文本摘要：生成文本语料库、研究论文或报告的简洁摘要。
- 图像数据提取：这些模型可用于提取、解释和总结视觉数据，用于文本通信。
研究与教育
- 自然语言处理（NLP）和VLM研究：这些模型可以作为研究人员试验VLM和NLP技术、开发算法和推动该领域发展的基础。
- 语言学习工具：支持交互式语言学习体验，帮助进行语法纠正或提供写作练习。
- 知识探索：帮助研究人员通过生成摘要或回答特定主题的问题来探索大量文本。

限制

训练数据
- 训练数据的质量和多样性会显著影响模型的能力。训练数据中的偏差或差距可能导致模型响应的局限性。
- 训练数据集的范围决定了模型能够有效处理的主题领域。
上下文和任务复杂性
- 模型更擅长可以用清晰提示和说明来构建的任务。开放式或高度复杂的任务可能具有挑战性。
- 模型的性能可能会受到提供的上下文量的影响（在一定程度上，更长的上下文通常会导致更好的输出）。
语言歧义与细微差别
- 自然语言本质上是复杂的。模型可能难以理解微妙的细微差别、讽刺或比喻语言。
事实准确性
- 模型根据从训练数据集中学到的信息生成响应，但它们不是知识库。它们可能会生成不正确或过时的事实陈述。
常识
- 模型依赖于语言中的统计模式。它们可能在某些情况下缺乏应用常识推理的能力。

伦理考虑与风险

视觉语言模型（VLM）的开发引发了一些伦理问题。在创建开放模型时，我们仔细考虑了以下方面：

偏差与公平性
- 在大规模真实世界文本和图像数据上训练的VLM可能反映训练材料中嵌入的社会文化偏差。这些模型经过了仔细审查，输入数据的预处理在本卡片中进行了描述，并报告了后续评估结果。
错误信息与滥用
- VLM可能被滥用来生成虚假、误导或有害的文本。
- 提供了负责任使用模型的指南，请参阅负责任的生成式AI工具包。
透明度与问责制
- 本模型卡片总结了模型的架构、能力、限制和评估过程的详细信息。
- 一个负责任开发的开放模型为跨AI生态系统的开发者和研究人员提供了共享创新的机会，使VLM技术更易于获取。

已识别的风险和缓解措施：

偏差的延续：鼓励在模型训练、微调及其他用例中进行持续监控（使用评估指标、人工审查）并探索去偏技术。
有害内容的生成：内容安全机制和指南至关重要。鼓励开发者谨慎行事，并根据其特定的产品政策和应用用例实施适当的内容安全保障措施。
恶意用途的滥用：技术限制以及对开发者和最终用户的教育可以帮助减轻VLM的恶意应用。提供了教育资源和用户举报滥用的机制。Gemma模型的禁止用途在Gemma禁止使用政策中进行了概述。
隐私侵犯：模型在经过过滤以去除某些个人信息和其他敏感数据的数据上进行训练。鼓励开发者遵守隐私法规并采用保护隐私的技术。