Gemma 3-12b-pt-bnb-4bit开源模型 - 支持多模态输入的轻量级文本生成工具

首页

Gemma 3 12b Pt Bnb 4bit

由 unsloth 开发

Gemma 3是谷歌推出的轻量级开放模型系列，基于与Gemini相同技术构建，支持多模态输入和文本生成。

图像生成文本

Transformers

英语#多模态处理 #128K大上下文 #多语言支持

下载量 2,509

发布时间 : 3/14/2025

模型简介

Gemma 3是多模态模型，能处理文本和图像输入并生成文本输出，适用于多种文本生成和图像理解任务。具有128K大上下文窗口，支持140+语言，资源需求较低。

模型特点

多模态处理

支持文本和图像输入，可执行跨模态任务如图像描述生成和视觉问答

大上下文窗口

128K标记的上下文窗口（1B版本为32K），支持长文档处理

资源高效

相对较小的模型尺寸可在消费级硬件上运行，内存使用减少80%

安全增强

在儿童安全、内容安全和减少偏见方面较前代有显著改进

多语言支持

支持超过140种语言，包括非拉丁语系和低资源语言

模型能力

文本生成

图像内容分析

多语言翻译

代码生成

数学推理

文档总结

视觉问答

跨模态理解

使用案例

内容创作

营销文案生成

根据产品图像和简要描述自动生成营销文案

提升内容创作效率

剧本创作

基于场景描述生成剧本片段

客户服务

智能客服

处理包含产品图像的客户咨询

减少人工客服工作量

教育研究

学术论文总结

从复杂研究论文中提取关键发现

HellaSwag基准10-shot达85.6分(27B)

编程教学

解释代码片段并生成教学示例

HumanEval基准0-shot达48.8分(27B)

🚀 Gemma 3模型微调项目

本项目聚焦于Gemma 3模型的微调，借助Unsloth工具，用户可免费对Gemma 3 (12B) 进行微调。同时，项目提供了多种格式的Gemma 3模型，涵盖GGUF、4位和16位等，满足不同场景需求。

🚀 快速开始

点击此处，使用我们的Google Colab笔记本免费微调Gemma 3 (12B)。
阅读我们关于Gemma 3支持的博客：unsloth.ai/blog/gemma3。
在文档中查看我们的其他笔记本。
将微调后的模型导出为GGUF、Ollama、llama.cpp或HF格式。

模型支持情况

Unsloth支持的模型	免费笔记本链接	性能提升	内存使用减少
GRPO with Gemma 3 (12B)	点击在Colab启动	2倍提速	80%
Llama - 3.2 (3B)	点击在Colab启动	2.4倍提速	58%
Llama - 3.2 (11B vision)	点击在Colab启动	2倍提速	60%
Qwen2.5 (7B)	点击在Colab启动	2倍提速	60%
Phi - 4 (14B)	点击在Colab启动	2倍提速	50%
Mistral (7B)	点击在Colab启动	2.2倍提速	62%

✨ 主要特性

多模态处理：Gemma 3模型支持文本和图像输入，输出文本，适用于多种文本生成和图像理解任务，如问答、总结和推理。
大上下文窗口：拥有128K的大上下文窗口，支持超过140种语言。
资源友好：相对较小的模型尺寸，可在笔记本电脑、台式机或自有云基础设施等资源有限的环境中部署。
安全提升：在儿童安全、内容安全和代表性危害等方面相对于之前的Gemma模型有显著改进。

📚 详细文档

Gemma 3模型卡片

模型页面：Gemma
资源和技术文档：
- [Gemma 3技术报告][g3 - tech - report]
- [负责任的生成式AI工具包][rai - toolkit]
- [Kaggle上的Gemma][kaggle - gemma]
- [Vertex模型库中的Gemma 3][vertex - mg - gemma3]
使用条款：[条款][terms]
作者：Google DeepMind

模型信息

描述

Gemma是谷歌推出的一系列轻量级、最先进的开放模型，基于与Gemini模型相同的研究和技术构建。Gemma 3模型是多模态的，能够处理文本和图像输入并生成文本输出，预训练和指令调优变体的权重均开放。它具有128K的大上下文窗口，支持超过140种语言，且比之前的版本有更多的尺寸可供选择。Gemma 3模型适用于各种文本生成和图像理解任务，其相对较小的尺寸使其能够在资源有限的环境中部署，让更多人能够使用最先进的AI模型，促进创新。

输入和输出

输入：
- 文本字符串，如问题、提示或待总结的文档。
- 图像，归一化为896 x 896分辨率，每个图像编码为256个标记。
- 4B、12B和27B尺寸的总输入上下文为128K标记，1B尺寸为32K标记。
输出：
- 针对输入生成的文本，如问题的答案、图像内容分析或文档总结。
- 总输出上下文为8192个标记。

引用

@article{gemma_2025,
    title={Gemma 3},
    url={https://goo.gle/Gemma3Report},
    publisher={Kaggle},
    author={Gemma Team},
    year={2025}
}

模型数据

训练数据集

这些模型在包含多种来源的文本数据集上进行训练。27B模型使用14万亿标记进行训练，12B模型使用12万亿标记，4B模型使用4万亿标记，1B模型使用2万亿标记。关键组成部分如下：

网页文档：多样化的网页文本集合，确保模型接触到广泛的语言风格、主题和词汇，训练数据集包含超过140种语言的内容。
代码：让模型接触代码有助于学习编程语言的语法和模式，提高生成代码和理解代码相关问题的能力。
数学：在数学文本上进行训练，帮助模型学习逻辑推理、符号表示和处理数学查询。
图像：广泛的图像使模型能够执行图像分析和视觉数据提取任务。

数据预处理

对训练数据应用了以下关键的数据清理和过滤方法：

CSAM过滤：在数据准备过程的多个阶段应用严格的CSAM（儿童性虐待材料）过滤，确保排除有害和非法内容。
敏感数据过滤：作为确保Gemma预训练模型安全可靠的一部分，使用自动化技术从训练集中过滤掉某些个人信息和其他敏感数据。
其他方法：根据内容质量和安全性进行过滤，符合[我们的政策][safety - policies]。

实现信息

硬件

Gemma使用[张量处理单元 (TPU)][tpu] 硬件（TPUv4p、TPUv5p和TPUv5e）进行训练。训练视觉语言模型 (VLM) 需要大量的计算能力。TPU专门为机器学习中常见的矩阵运算而设计，在这一领域具有以下优势：

性能：专门处理训练VLM涉及的大量计算，比CPU显著加快训练速度。
内存：通常配备大量高带宽内存，允许在训练过程中处理大型模型和批量大小，有助于提高模型质量。
可扩展性：TPU Pod（大型TPU集群）为处理大型基础模型日益增长的复杂性提供了可扩展的解决方案，可以在多个TPU设备上分布训练，实现更快、更高效的处理。
成本效益：在许多情况下，与基于CPU的基础设施相比，TPU为训练大型模型提供了更具成本效益的解决方案，尤其是考虑到更快的训练速度节省的时间和资源。
这些优势符合[谷歌对可持续运营的承诺][sustainability]。

软件

使用[JAX][jax]和[ML Pathways][ml - pathways]进行训练。 JAX使研究人员能够利用包括TPU在内的最新一代硬件，更快、更高效地训练大型模型。ML Pathways是谷歌构建能够跨多个任务进行泛化的人工智能系统的最新成果，特别适用于基础模型，包括此类大型语言模型。 JAX和ML Pathways的使用如[关于Gemini系列模型的论文][gemini - 2 - paper]所述：“Jax和Pathways的‘单控制器’编程模型允许单个Python进程编排整个训练过程，大大简化了开发工作流程。”

评估

基准测试结果

这些模型针对大量不同的数据集和指标进行评估，以涵盖文本生成的不同方面：

推理和事实性

基准测试	指标	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[HellaSwag][hellaswag]	10 - shot	62.3	77.2	84.2	85.6
[BoolQ][boolq]	0 - shot	63.2	72.3	78.8	82.4
[PIQA][piqa]	0 - shot	73.8	79.6	81.8	83.3
[SocialIQA][socialiqa]	0 - shot	48.9	51.9	53.4	54.9
[TriviaQA][triviaqa]	5 - shot	39.8	65.8	78.2	85.5
[Natural Questions][naturalq]	5 - shot	9.48	20.0	31.4	36.1
[ARC - c][arc]	25 - shot	38.4	56.2	68.9	70.6
[ARC - e][arc]	0 - shot	73.0	82.4	88.3	89.0
[WinoGrande][winogrande]	5 - shot	58.2	64.7	74.3	78.8
[BIG - Bench Hard][bbh]	few - shot	28.4	50.9	72.6	77.7
[DROP][drop]	1 - shot	42.4	60.1	72.2	77.2

STEM和代码

基准测试	指标	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[MMLU][mmlu]	5 - shot	59.6	74.5	78.6
[MMLU][mmlu] (Pro COT)	5 - shot	29.2	45.3	52.2
[AGIEval][agieval]	3 - 5 - shot	42.1	57.4	66.2
[MATH][math]	4 - shot	24.2	43.3	50.0
[GSM8K][gsm8k]	8 - shot	38.4	71.0	82.6
[GPQA][gpqa]	5 - shot	15.0	25.4	24.3
[MBPP][mbpp]	3 - shot	46.0	60.4	65.6
[HumanEval][humaneval]	0 - shot	36.0	45.7	48.8

多语言

基准测试	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[MGSM][mgsm]	2.04	34.7	64.3	74.3
[Global - MMLU - Lite][global - mmlu - lite]	24.9	57.0	69.4	75.7
[WMT24++][wmt24pp] (ChrF)	36.7	48.4	53.9	55.7
[FloRes][flores]	29.5	39.2	46.0	48.8
[XQuAD][xquad] (all)	43.9	68.0	74.5	76.8
[ECLeKTic][eclektic]	4.69	11.0	17.2	24.4
[IndicGenBench][indicgenbench]	41.4	57.2	61.7	63.4

多模态

基准测试	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[COCOcap][coco - cap]	102	111	116
[DocVQA][docvqa] (val)	72.8	82.3	85.6
[InfoVQA][info - vqa] (val)	44.1	54.8	59.4
[MMMU][mmmu] (pt)	39.2	50.3	56.1
[TextVQA][textvqa] (val)	58.9	66.5	68.6
[RealWorldQA][realworldqa]	45.5	52.2	53.9
[ReMI][remi]	27.3	38.5	44.8
[AI2D][ai2d]	63.2	75.2	79.0
[ChartQA][chartqa]	63.6	74.7	76.3
[VQAv2][vqav2]	63.9	71.2	72.9
[BLINK][blinkvqa]	38.0	35.9	39.6
[OKVQA][okvqa]	51.0	58.7	60.2
[TallyQA][tallyqa]	42.5	51.8	54.3
[SpatialSense VQA][ss - vqa]	50.9	60.0	59.4
[CountBenchQA][countbenchqa]	26.1	17.8	68.0

伦理与安全

评估方法

我们的评估方法包括结构化评估和对相关内容政策的内部红队测试。红队测试由多个不同的团队进行，每个团队有不同的目标和人工评估指标。对这些模型在与伦理和安全相关的多个不同类别进行评估，包括：

儿童安全：评估文本到文本和图像到文本的提示，涵盖儿童安全政策，包括儿童性虐待和剥削。
内容安全：评估文本到文本和图像到文本的提示，涵盖安全政策，包括骚扰、暴力和血腥内容以及仇恨言论。
代表性危害：评估文本到文本和图像到文本的提示，涵盖安全政策，包括偏见、刻板印象和有害关联或不准确信息。

除了开发阶段的评估，我们还进行“保证评估”，这是我们独立的内部评估，用于责任治理决策。这些评估与模型开发团队分开进行，为发布决策提供信息。高层级的评估结果会反馈给模型团队，但提示集不会公开，以防止过拟合并确保结果能够为决策提供有效信息。保证评估结果作为发布审查的一部分报告给我们的责任与安全委员会。

评估结果

在所有安全测试领域，相对于之前的Gemma模型，在儿童安全、内容安全和代表性危害等类别中都有重大改进。所有测试均在不使用安全过滤器的情况下进行，以评估模型的能力和行为。对于文本到文本和图像到文本，以及所有模型尺寸，模型产生的政策违规极少，并且在无根据推断方面相对于之前的Gemma模型有显著改进。我们评估的一个局限性是只包括了英语提示。

使用和限制

预期用途

开放视觉语言模型 (VLM) 在各个行业和领域有广泛的应用。以下潜在用途列表并非详尽无遗，目的是提供模型创建者在模型训练和开发过程中考虑的可能用例的上下文信息。

内容创作和通信：
- 文本生成：可用于生成创意文本格式，如诗歌、脚本、代码、营销文案和电子邮件草稿。
- 聊天机器人和对话式AI：为客户服务、虚拟助手或交互式应用程序提供对话界面。
- 文本总结：生成文本语料库、研究论文或报告的简洁总结。
- 图像数据提取：用于提取、解释和总结视觉数据，用于文本通信。
研究和教育：
- 自然语言处理 (NLP) 和VLM研究：可作为研究人员试验VLM和NLP技术、开发算法和推动该领域发展的基础。
- 语言学习工具：支持交互式语言学习体验，帮助纠正语法或提供写作建议。