Gemma 3轻量级开源模型 - 支持多模态输入，免费畅享文本输出服务

首页

Gemma 3 4b Pt Qat Q4 0 Gguf

由 google 开发

Gemma 3是Google推出的轻量级开放模型系列，基于与Gemini相同技术构建，支持多模态输入和文本输出。

图像生成文本 #多模态理解 #128K长上下文 #多语言支持

下载量 912

发布时间 : 3/12/2025

模型简介

Gemma 3是多模态模型，能处理文本和图像输入并生成文本输出，具有128K大上下文窗口，支持140+种语言。适合问答、摘要、推理等任务。

模型特点

多模态能力

支持同时处理文本和图像输入，进行跨模态理解与生成

大上下文窗口

128K token的上下文长度，适合处理长文档和复杂任务

量化感知训练

采用QAT技术降低内存需求同时保持模型质量

多语言支持

训练数据包含140+种语言内容，具备多语言处理能力

模型能力

文本生成

图像理解

多语言处理

代码生成

数学推理

文档摘要

视觉问答

使用案例

内容创作

营销文案生成

根据产品图像和简要描述生成营销文案

可生成符合品牌调性的多语言文案

技术文档摘要

从长技术文档中提取关键信息生成摘要

保持技术准确性的简明摘要

研究与教育

学术论文分析

解析论文图表并生成文字说明

帮助研究人员快速理解复杂图表数据

编程教学辅助

根据代码截图解释编程概念

提供交互式编程学习体验

🚀 Gemma 3模型卡片

Gemma 3是谷歌推出的轻量级多模态模型，基于与Gemini相同的技术构建。它支持文本和图像输入，输出文本，具有128K大上下文窗口和超140种语言的多语言支持，适用于多种文本生成和图像理解任务。

🚀 快速开始

本仓库对应Gemma 3模型的4B 预训练（基础） 版本，采用GGUF格式和量化感知训练（QAT）。GGUF对应Q4_0量化。对于大多数用例，建议使用IT GGUF。

得益于QAT，该模型在显著降低加载内存需求的同时，能够保持与bfloat16相近的质量。

你可以在此处找到半精度版本，在此处找到指令模型的QAT版本。

代码示例

llama.cpp（仅文本）

./llama-cli -hf google/gemma-3-4b-pt-qat-q4_0-gguf -p "It was a dark and stormy night."

ollama（仅文本）

目前，通过Hugging Face使用GGUF与Ollama不支持图像输入。请查看运行受限仓库的文档。

ollama run hf.co/google/gemma-3-4b-pt-qat-q4_0-gguf

✨ 主要特性

多模态处理：支持文本和图像输入，生成文本输出。
大上下文窗口：拥有128K的上下文窗口，能处理长文本。
多语言支持：支持超过140种语言。
轻量化设计：相对较小的模型尺寸，适合在资源有限的环境中部署。

📦 安装指南

文档未提及具体安装步骤，暂不提供。

💻 使用示例

基础用法

# llama.cpp（仅文本）
./llama-cli -hf google/gemma-3-4b-pt-qat-q4_0-gguf -p "It was a dark and stormy night."

高级用法

# ollama（仅文本）
# 目前，通过Hugging Face使用GGUF与Ollama不支持图像输入。请查看[运行受限仓库的文档](https://huggingface.co/docs/hub/en/ollama#run-private-ggufs-from-the-hugging-face-hub)。
ollama run hf.co/google/gemma-3-4b-pt-qat-q4_0-gguf

📚 详细文档

模型信息

描述

Gemma是谷歌推出的一系列轻量级、最先进的开放模型，基于与Gemini模型相同的研究和技术构建。Gemma 3模型是多模态的，能够处理文本和图像输入，并生成文本输出，预训练变体和指令调优变体的权重均开放。Gemma 3具有128K的大上下文窗口，支持超过140种语言，并且比以前的版本有更多的尺寸可供选择。Gemma 3模型非常适合各种文本生成和图像理解任务，包括问答、摘要和推理。其相对较小的尺寸使其能够在资源有限的环境中部署，如笔记本电脑、台式机或你自己的云基础设施，从而使更多人能够使用最先进的AI模型，促进创新。

输入和输出

属性	详情
输入	1. 文本字符串，如问题、提示或待总结的文档；2. 图像，归一化为896 x 896分辨率，并编码为每个256个标记；3. 4B、12B和27B尺寸的总输入上下文为128K标记，1B尺寸为32K标记。
输出	1. 针对输入生成的文本，如问题的答案、图像内容分析或文档摘要；2. 总输出上下文为8192个标记。

模型数据

训练数据集

这些模型在包含多种来源的文本数据集上进行训练。27B模型使用14万亿个标记进行训练，12B模型使用12万亿个标记，4B模型使用4万亿个标记，1B模型使用2万亿个标记。主要组成部分如下：

网页文档：多样化的网页文本集合，确保模型接触到广泛的语言风格、主题和词汇。训练数据集包含超过140种语言的内容。
代码：让模型接触代码有助于学习编程语言的语法和模式，提高生成代码和理解代码相关问题的能力。
数学：在数学文本上进行训练有助于模型学习逻辑推理、符号表示和解决数学查询。
图像：广泛的图像使模型能够执行图像分析和视觉数据提取任务。

这些多样化数据源的组合对于训练一个强大的多模态模型至关重要，该模型能够处理各种不同的任务和数据格式。

数据预处理

以下是应用于训练数据的主要数据清理和过滤方法：

CSAM过滤：在数据准备过程的多个阶段应用严格的CSAM（儿童性虐待材料）过滤，以确保排除有害和非法内容。
敏感数据过滤：作为使Gemma预训练模型安全可靠的一部分，使用自动化技术从训练集中过滤掉某些个人信息和其他敏感数据。
其他方法：根据[我们的政策][safety-policies]进行基于内容质量和安全性的过滤。

实现信息

硬件

Gemma使用[张量处理单元（TPU）][tpu]硬件（TPUv4p、TPUv5p和TPUv5e）进行训练。训练视觉语言模型（VLM）需要大量的计算能力。TPU专门为机器学习中常见的矩阵运算而设计，在这一领域具有以下优势：

性能：TPU专门用于处理训练VLM涉及的大量计算。与CPU相比，它们可以显著加速训练。
内存：TPU通常配备大量高带宽内存，允许在训练期间处理大型模型和批量大小。这有助于提高模型质量。
可扩展性：TPU Pod（大型TPU集群）为处理大型基础模型日益增长的复杂性提供了可扩展的解决方案。你可以在多个TPU设备上分布训练，以实现更快、更高效的处理。
成本效益：在许多情况下，与基于CPU的基础设施相比，TPU可以为训练大型模型提供更具成本效益的解决方案，特别是考虑到由于更快的训练而节省的时间和资源。
这些优势符合[谷歌的可持续运营承诺][sustainability]。

软件

训练使用[JAX][jax]和[ML Pathways][ml-pathways]进行。

JAX使研究人员能够利用最新一代的硬件（包括TPU）来更快、更高效地训练大型模型。ML Pathways是谷歌构建能够跨多个任务进行泛化的人工智能系统的最新努力。这特别适用于基础模型，包括像这样的大型语言模型。

如[关于Gemini模型系列的论文][gemini-2-paper]所述，JAX和ML Pathways一起使用：“Jax和Pathways的‘单控制器’编程模型允许单个Python进程编排整个训练运行，大大简化了开发工作流程。”

评估

基准测试结果

这些模型在大量不同的数据集和指标上进行评估，以涵盖文本生成的不同方面：

推理和事实性

基准测试	指标	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[HellaSwag][hellaswag]	10-shot	62.3	77.2	84.2	85.6
[BoolQ][boolq]	0-shot	63.2	72.3	78.8	82.4
[PIQA][piqa]	0-shot	73.8	79.6	81.8	83.3
[SocialIQA][socialiqa]	0-shot	48.9	51.9	53.4	54.9
[TriviaQA][triviaqa]	5-shot	39.8	65.8	78.2	85.5
[Natural Questions][naturalq]	5-shot	9.48	20.0	31.4	36.1
[ARC-c][arc]	25-shot	38.4	56.2	68.9	70.6
[ARC-e][arc]	0-shot	73.0	82.4	88.3	89.0
[WinoGrande][winogrande]	5-shot	58.2	64.7	74.3	78.8
[BIG-Bench Hard][bbh]	few-shot	28.4	50.9	72.6	77.7
[DROP][drop]	1-shot	42.4	60.1	72.2	77.2

STEM和代码

基准测试	指标	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[MMLU][mmlu]	5-shot	59.6	74.5	78.6
[MMLU][mmlu] (Pro COT)	5-shot	29.2	45.3	52.2
[AGIEval][agieval]	3 - 5-shot	42.1	57.4	66.2
[MATH][math]	4-shot	24.2	43.3	50.0
[GSM8K][gsm8k]	8-shot	38.4	71.0	82.6
[GPQA][gpqa]	5-shot	15.0	25.4	24.3
[MBPP][mbpp]	3-shot	46.0	60.4	65.6
[HumanEval][humaneval]	0-shot	36.0	45.7	48.8

多语言

基准测试	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[MGSM][mgsm]	2.04	34.7	64.3	74.3
[Global-MMLU-Lite][global-mmlu-lite]	24.9	57.0	69.4	75.7
[WMT24++][wmt24pp] (ChrF)	36.7	48.4	53.9	55.7
[FloRes][flores]	29.5	39.2	46.0	48.8
[XQuAD][xquad] (all)	43.9	68.0	74.5	76.8
[ECLeKTic][eclektic]	4.69	11.0	17.2	24.4
[IndicGenBench][indicgenbench]	41.4	57.2	61.7	63.4

多模态

基准测试	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[COCOcap][coco-cap]	102	111	116
[DocVQA][docvqa] (val)	72.8	82.3	85.6
[InfoVQA][info-vqa] (val)	44.1	54.8	59.4
[MMMU][mmmu] (pt)	39.2	50.3	56.1
[TextVQA][textvqa] (val)	58.9	66.5	68.6
[RealWorldQA][realworldqa]	45.5	52.2	53.9
[ReMI][remi]	27.3	38.5	44.8
[AI2D][ai2d]	63.2	75.2	79.0
[ChartQA][chartqa]	63.6	74.7	76.3
[VQAv2][vqav2]	63.9	71.2	72.9
[BLINK][blinkvqa]	38.0	35.9	39.6
[OKVQA][okvqa]	51.0	58.7	60.2
[TallyQA][tallyqa]	42.5	51.8	54.3
[SpatialSense VQA][ss-vqa]	50.9	60.0	59.4
[CountBenchQA][countbenchqa]	26.1	17.8	68.0

伦理与安全

评估方法

我们的评估方法包括结构化评估和对相关内容政策的内部红队测试。红队测试由多个不同的团队进行，每个团队有不同的目标和人工评估指标。这些模型在与伦理和安全相关的多个不同类别上进行评估，包括：

儿童安全：评估文本到文本和图像到文本的提示，涵盖儿童安全政策，包括儿童性虐待和剥削。
内容安全：评估文本到文本和图像到文本的提示，涵盖安全政策，包括骚扰、暴力和血腥内容以及仇恨言论。
代表性伤害：评估文本到文本和图像到文本的提示，涵盖安全政策，包括偏见、刻板印象和有害关联或不准确信息。

除了开发阶段的评估，我们还进行“保证评估”，这是我们为责任治理决策进行的“独立”内部评估。它们与模型开发团队分开进行，为发布决策提供信息。高级别发现反馈给模型团队，但保留提示集以防止过拟合，并保持结果为决策提供信息的能力。保证评估结果作为发布审查的一部分报告给我们的责任与安全委员会。

评估结果

在所有安全测试领域，我们发现与之前的Gemma模型相比，儿童安全、内容安全和代表性伤害类别有了重大改进。所有测试均在没有安全过滤器的情况下进行，以评估模型的能力和行为。对于文本到文本和图像到文本，以及所有模型尺寸，模型产生的政策违规极少，并且在无根据推断方面比之前的Gemma模型表现有显著改善。我们评估的一个局限性是只包括英语提示。

使用与限制

预期用途

开放视觉语言模型（VLM）在各个行业和领域有广泛的应用。以下潜在用途列表并不全面。此列表的目的是提供有关模型创建者在模型训练和开发过程中考虑的可能用例的上下文信息。

内容创作与沟通
- 文本生成：这些模型可用于生成创意文本格式，如诗歌、脚本、代码、营销文案和电子邮件草稿。
- 聊天机器人和对话式AI：为客户服务、虚拟助手或交互式应用程序提供对话界面。
- 文本摘要：生成文本语料库、研究论文或报告的简洁摘要。
- 图像数据提取：这些模型可用于提取、解释和总结视觉数据，用于文本通信。
研究与教育
- 自然语言处理（NLP）和VLM研究：这些模型可作为研究人员试验VLM和NLP技术、开发算法和推动该领域发展的基础。
- 语言学习工具：支持交互式语言学习体验，帮助纠正语法或提供写作练习。
- 知识探索：帮助研究人员通过生成摘要或回答特定主题的问题来探索大量文本。

局限性

训练数据
- 训练数据的质量和多样性显著影响模型的能力。训练数据中的偏差或差距可能导致模型响应的局限性。
- 训练数据集的范围决定了模型能够有效处理的主题领域。
上下文和任务复杂性
- 模型更擅长可以用清晰提示和指令描述的任务。开放式或高度复杂的任务可能具有挑战性。
- 模型的性能可能受到提供的上下文量的影响（在一定程度上，更长的上下文通常会导致更好的输出）。
语言歧义与细微差别
- 自然语言本质上是复杂的。模型可能难以理解微妙的细微差别、讽刺或比喻语言。
事实准确性
- 模型根据从训练数据集中学到的信息生成响应，但它们不是知识库。它们可能生成不正确或过时的事实陈述。
常识
- 模型依赖于语言中的统计模式。它们可能在某些情况下缺乏应用常识推理的能力。

伦理考虑与风险

视觉语言模型（VLM）的开发引发了一些伦理问题。在创建开放模型时，我们仔细考虑了以下方面：

偏差与公平性
- 在大规模真实世界文本和图像数据上训练的VLM可能反映训练材料中嵌入的社会文化偏差。这些模型经过仔细审查，输入数据进行了预处理，并在本卡片中报告了后续评估结果。
错误信息与滥用
- VLM可能被滥用来生成虚假、误导或有害的文本。
- 提供了模型负责任使用的指南，请参阅[负责任生成AI工具包][rai-toolkit]。
透明度与问责制
- 本模型卡片总结了模型的架构、能力、局限性和评估过程的详细信息。
- 负责任开发的开放模型为AI生态系统中的开发人员和研究人员提供了共享创新和使用VLM技术的机会。

已识别的风险及缓解措施：

偏差的延续：鼓励在模型训练、微调及其他用例中进行持续监控（使用评估指标、人工审查）并探索去偏技术。
有害内容的生成：内容安全机制和指南至关重要。鼓励开发人员根据其特定产品政策和应用用例谨慎行事，并实施适当的内容安全保障措施。
恶意使用：技术限制以及对开发人员和最终用户的教育有助于减轻VLM的恶意应用。提供了教育资源和用户举报滥用的机制。Gemma模型的禁止使用情况在[Gemma禁止使用政策][prohibited-use]中列出。
隐私侵犯：模型在过滤掉某些个人信息和其他敏感数据的数据上进行训练。鼓励开发人员遵守隐私法规并采用隐私保护技术。

优势

在发布时，与类似规模的模型相比，这一系列模型提供了高性能的开放视觉语言模型实现，从一开始就为负责任的AI开发而设计。

使用本文档中描述的基准评估指标，这些模型已证明比其他类似规模的开放模型替代品具有更优越的性能。

🔧 技术细节

引用

@article{gemma_2025,
    title={Gemma 3},
    url={https://goo.gle/Gemma3Report},
    publisher={Kaggle},
    author={Gemma Team},
    year={2025}
}

📄 许可证

本模型使用Gemma许可证。若要在Hugging Face上使用Gemma，你需要审查并同意Google的使用许可。请确保你已登录Hugging Face并点击下方按钮。请求将立即处理。 [确认许可](Acknowledge license)

⚠️ 重要提示

本评估仅使用了英语提示。

💡 使用建议

对于大多数用例，建议使用IT GGUF。在使用模型时，需注意训练数据的局限性，避免在复杂、开放的任务中过度依赖模型。同时，遵循相关的伦理和安全指南，确保模型的负责任使用。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文