模型简介
模型特点
模型能力
使用案例
🚀 Gemma-3n-E4B-it-litert-preview模型
Gemma-3n-E4B-it-litert-preview是基于Google的Gemma 3n模型微调的版本,支持图像和文本输入并生成文本输出,适用于多模态任务。
🚀 快速开始
模型信息
属性 | 详情 |
---|---|
基础模型 | google/gemma-3n-E4B-it-litert-preview |
支持语言 | 英文 |
任务类型 | 图像文本到文本生成 |
库名称 | transformers |
许可证 | gemma |
标签 | gemma3、unsloth、transformers、gemma、google |
重要提示
⚠️ 重要提示
此模型是从google/gemma-3n-E4B-it更新而来。
学习与使用指南
- 运行与微调指南:了解如何正确运行和微调Gemma 3n。
- 模型版本集合:查看所有版本的Gemma 3n,包括GGUF、4位和16位格式。
- 性能优势:Unsloth Dynamic 2.0在量化模型中实现了最优的准确性和性能。
社区链接
使用说明
- 当前支持:目前仅支持文本输入。
- Ollama运行命令:
ollama run hf.co/unsloth/gemma-3n-E4B-it:Q4_K_XL
,该命令会自动设置正确的聊天模板和参数。 - 参数设置:建议设置温度为1.0,top_k为64,top_p为0.95,min_p为0.0。
- 最大令牌数:Gemma 3n的最大上下文长度为32K令牌。
- 聊天模板示例:
<bos><start_of_turn>user\nHello!<end_of_turn>\n<start_of_turn>model\nHey there!<end_of_turn>\n<start_of_turn>user\nWhat is 1+1?<end_of_turn>\n<start_of_turn>model\n
- 详细指南:查看详细使用指南。
免费微调
- 免费微调Gemma 3n (4B):使用Google Colab笔记本。
- 博客文章:阅读关于Gemma 3n支持的博客。
- 更多笔记本:查看其他笔记本。
Unsloth支持的模型及优势
Unsloth支持的模型 | 免费笔记本链接 | 性能 | 内存使用 |
---|---|---|---|
Gemma-3n-E4B | 立即在Colab开始 | 快2倍 | 减少80% |
GRPO with Gemma 3 (1B) | 立即在Colab开始 | 快2倍 | 减少80% |
Gemma 3 (4B) | 立即在Colab开始 | 快2倍 | 减少60% |
Qwen3 (14B) | 立即在Colab开始 | 快2倍 | 减少60% |
DeepSeek-R1-0528-Qwen3-8B (14B) | 立即在Colab开始 | 快2倍 | 减少80% |
Llama-3.2 (3B) | 立即在Colab开始 | 快2.4倍 | 减少58% |
模型卡片
✨ 主要特性
模型概述
Gemma是Google推出的轻量级、最先进的开源模型系列,基于与Gemini模型相同的研究和技术构建。Gemma 3n模型专为在低资源设备上高效运行而设计,支持多模态输入,包括文本、图像、视频和音频,并生成文本输出。预训练和指令微调版本的模型权重开放,且使用了超过140种语言的数据进行训练。
输入输出
- 输入:
- 文本字符串,如问题、提示或待总结的文档。
- 图像,归一化为256x256、512x512或768x768分辨率,并编码为每个256个令牌。
- 音频数据,单通道每秒编码为6.25个令牌。
- 总输入上下文为32K令牌。
- 输出:
- 针对输入生成的文本,如问题的答案、图像内容分析或文档摘要。
- 总输出长度最多为32K令牌,减去请求输入的令牌数。
📦 安装指南
首先,安装Transformers库。Gemma 3n从transformers 4.53.0版本开始支持。
$ pip install -U transformers
💻 使用示例
基础用法
使用pipeline
API初始化模型和处理器进行推理:
from transformers import pipeline
import torch
pipe = pipeline(
"image-text-to-text",
model="google/gemma-3n-e4b-it",
device="cuda",
torch_dtype=torch.bfloat16,
)
高级用法
对于指令微调模型,需要先使用聊天模板处理输入,然后传递给pipeline:
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "You are a helpful assistant."}]
},
{
"role": "user",
"content": [
{"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
{"type": "text", "text": "What animal is on the candy?"}
]
}
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
# Okay, let's take a look!
# Based on the image, the animal on the candy is a **turtle**.
# You can see the shell shape and the head and legs.
在单个GPU上运行模型
from transformers import AutoProcessor, Gemma3nForConditionalGeneration
from PIL import Image
import requests
import torch
model_id = "google/gemma-3n-e4b-it"
model = Gemma3nForConditionalGeneration.from_pretrained(model_id, device_map="auto", torch_dtype=torch.bfloat16,).eval()
processor = AutoProcessor.from_pretrained(model_id)
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "You are a helpful assistant."}]
},
{
"role": "user",
"content": [
{"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
{"type": "text", "text": "Describe this image in detail."}
]
}
]
inputs = processor.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
# **Overall Impression:** The image is a close-up shot of a vibrant garden scene,
# focusing on a cluster of pink cosmos flowers and a busy bumblebee.
# It has a slightly soft, natural feel, likely captured in daylight.
📚 详细文档
模型数据
训练数据集
这些模型在包含约11万亿令牌的多样化数据集上进行训练,训练数据的知识截止日期为2024年6月。主要组成部分包括:
- 网页文档:多样化的网页文本集合,确保模型接触到广泛的语言风格、主题和词汇,训练数据集包含超过140种语言的内容。
- 代码:让模型接触代码有助于学习编程语言的语法和模式,提高生成代码和理解代码相关问题的能力。
- 数学:在数学文本上进行训练有助于模型学习逻辑推理、符号表示和解决数学查询。
- 图像:广泛的图像数据使模型能够执行图像分析和视觉数据提取任务。
- 音频:多样化的声音样本使模型能够识别语音、从录音中转录文本并识别音频数据中的信息。
数据预处理
训练数据应用了以下关键的数据清理和过滤方法:
- CSAM过滤:在数据准备过程的多个阶段应用严格的CSAM(儿童性虐待材料)过滤,确保排除有害和非法内容。
- 敏感数据过滤:作为使Gemma预训练模型安全可靠的一部分,使用自动化技术从训练集中过滤出某些个人信息和其他敏感数据。
- 其他方法:根据我们的政策进行内容质量和安全性过滤。
实现信息
硬件
Gemma使用张量处理单元 (TPU)硬件(TPUv4p、TPUv5p和TPUv5e)进行训练。训练生成式模型需要大量的计算能力,TPU专为机器学习中常见的矩阵运算而设计,具有以下优势:
- 性能:TPU专门用于处理训练生成式模型涉及的大量计算,与CPU相比可以显著加速训练。
- 内存:TPU通常配备大量高带宽内存,允许在训练期间处理大型模型和批量大小,有助于提高模型质量。
- 可扩展性:TPU Pod(大型TPU集群)为处理大型基础模型的不断增长的复杂性提供了可扩展的解决方案,可以跨多个TPU设备分布训练以实现更快、更高效的处理。
- 成本效益:在许多情况下,与基于CPU的基础设施相比,TPU可以为训练大型模型提供更具成本效益的解决方案,特别是考虑到更快的训练节省的时间和资源。
软件
训练使用JAX和ML Pathways进行。JAX允许研究人员利用最新一代的硬件(包括TPU)进行更快、更高效的大型模型训练。ML Pathways是Google构建能够跨多个任务进行泛化的人工智能系统的最新努力,特别适用于基础模型,包括此类大型语言模型。
评估
基准测试结果
这些模型在全精度(float32)下针对大量不同的数据集和指标进行评估,以涵盖内容生成的不同方面。标记为IT的评估结果是针对指令微调模型,标记为PT的评估结果是针对预训练模型。
推理与事实性
基准测试 | 指标 | n-shot | E2B PT | E4B PT |
---|---|---|---|---|
HellaSwag | 准确率 | 10-shot | 72.2 | 78.6 |
BoolQ | 准确率 | 0-shot | 76.4 | 81.6 |
PIQA | 准确率 | 0-shot | 78.9 | 81.0 |
SocialIQA | 准确率 | 0-shot | 48.8 | 50.0 |
TriviaQA | 准确率 | 5-shot | 60.8 | 70.2 |
Natural Questions | 准确率 | 5-shot | 15.5 | 20.9 |
ARC-c | 准确率 | 25-shot | 51.7 | 61.6 |
ARC-e | 准确率 | 0-shot | 75.8 | 81.6 |
WinoGrande | 准确率 | 5-shot | 66.8 | 71.7 |
BIG-Bench Hard | 准确率 | few-shot | 44.3 | 52.9 |
DROP | 令牌F1分数 | 1-shot | 53.9 | 60.8 |
多语言
基准测试 | 指标 | n-shot | E2B IT | E4B IT |
---|---|---|---|---|
MGSM | 准确率 | 0-shot | 53.1 | 60.7 |
WMT24++ (ChrF) | 字符级F分数 | 0-shot | 42.7 | 50.1 |
Include | 准确率 | 0-shot | 38.6 | 57.2 |
MMLU (ProX) | 准确率 | 0-shot | 8.1 | 19.9 |
OpenAI MMLU | 准确率 | 0-shot | 22.3 | 35.6 |
Global-MMLU | 准确率 | 0-shot | 55.1 | 60.3 |
ECLeKTic | ECLeKTic分数 | 0-shot | 2.5 | 1.9 |
STEM与代码
基准测试 | 指标 | n-shot | E2B IT | E4B IT |
---|---|---|---|---|
GPQA Diamond | 宽松准确率/准确率 | 0-shot | 24.8 | 23.7 |
LiveCodeBench v5 | pass@1 | 0-shot | 18.6 | 25.7 |
Codegolf v2.2 | pass@1 | 0-shot | 11.0 | 16.8 |
AIME 2025 | 准确率 | 0-shot | 6.7 | 11.6 |
其他基准测试
基准测试 | 指标 | n-shot | E2B IT | E4B IT |
---|---|---|---|---|
MMLU | 准确率 | 0-shot | 60.1 | 64.9 |
MBPP | pass@1 | 3-shot | 56.6 | 63.6 |
HumanEval | pass@1 | 0-shot | 66.5 | 75.0 |
LiveCodeBench | pass@1 | 0-shot | 13.2 | 13.2 |
HiddenMath | 准确率 | 0-shot | 27.7 | 37.7 |
Global-MMLU-Lite | 准确率 | 0-shot | 59.0 | 64.5 |
MMLU (Pro) | 准确率 | 0-shot | 40.5 | 50.6 |
伦理与安全
评估方法
我们的评估方法包括结构化评估和对相关内容政策的内部红队测试。红队测试由多个不同的团队进行,每个团队有不同的目标和人工评估指标。这些模型针对与伦理和安全相关的多个不同类别进行评估,包括:
- 儿童安全:评估文本到文本和图像到文本的提示,涵盖儿童安全政策,包括儿童性虐待和剥削。
- 内容安全:评估文本到文本和图像到文本的提示,涵盖安全政策,包括骚扰、暴力和血腥内容以及仇恨言论。
- 代表性危害:评估文本到文本和图像到文本的提示,涵盖安全政策,包括偏见、刻板印象和有害关联或不准确信息。
除了开发阶段的评估,我们还进行“保证评估”,这是我们独立的内部评估,用于责任治理决策。这些评估与模型开发团队分开进行,以提供决策依据。
引用
@article{gemma_3n_2025,
title={Gemma 3n},
url={https://ai.google.dev/gemma/docs/gemma-3n},
publisher={Google DeepMind},
author={Gemma Team},
year={2025}
}
📄 许可证
本模型使用gemma许可证。








