Gemma-3n-E4B-it-litert-preview开源模型 - 支持图像文本输入，用于多模态任务

首页

Gemma 3n E4B It Litert Preview GGUF

由 unsloth 开发

Gemma-3n-E4B-it-litert-preview是基于Google的Gemma 3n模型微调的版本，支持图像和文本输入并生成文本输出，适用于多模态任务。

图像生成文本

Transformers

英语#多模态输入 #32K长上下文 #轻量级高效

下载量 134

发布时间 : 7/8/2025

模型简介

Gemma是Google推出的轻量级、最先进的开源模型系列，基于与Gemini模型相同的研究和技术构建。Gemma 3n模型专为在低资源设备上高效运行而设计，支持多模态输入，包括文本、图像、视频和音频，并生成文本输出。

模型特点

多模态输入支持

支持文本、图像、视频和音频输入，并生成文本输出。

高效运行

专为在低资源设备上高效运行而设计，适合资源受限的环境。

高性能

在多种基准测试中表现出色，特别是在推理与事实性任务中。

广泛的语言支持

训练数据包含超过140种语言的内容，支持多语言任务。

模型能力

文本生成

图像分析

音频转录

多模态任务处理

使用案例

内容生成

图像描述生成

根据输入的图像生成详细的描述文本。

生成准确且详细的图像描述。

文档摘要

对输入的文档进行总结，生成简洁的摘要。

生成高质量的文档摘要。

问答系统

多模态问答

结合图像和文本输入回答问题。

提供准确的答案，特别是在视觉相关的问题上。

🚀 Gemma-3n-E4B-it-litert-preview模型

Gemma-3n-E4B-it-litert-preview是基于Google的Gemma 3n模型微调的版本，支持图像和文本输入并生成文本输出，适用于多模态任务。

🚀 快速开始

模型信息

属性	详情
基础模型	google/gemma-3n-E4B-it-litert-preview
支持语言	英文
任务类型	图像文本到文本生成
库名称	transformers
许可证	gemma
标签	gemma3、unsloth、transformers、gemma、google

重要提示

⚠️ 重要提示

此模型是从google/gemma-3n-E4B-it更新而来。

学习与使用指南

运行与微调指南：了解如何正确运行和微调Gemma 3n。
模型版本集合：查看所有版本的Gemma 3n，包括GGUF、4位和16位格式。
性能优势：Unsloth Dynamic 2.0在量化模型中实现了最优的准确性和性能。

社区链接

使用说明

当前支持：目前仅支持文本输入。
Ollama运行命令：ollama run hf.co/unsloth/gemma-3n-E4B-it:Q4_K_XL ，该命令会自动设置正确的聊天模板和参数。
参数设置：建议设置温度为1.0，top_k为64，top_p为0.95，min_p为0.0。
最大令牌数：Gemma 3n的最大上下文长度为32K令牌。
聊天模板示例：

<bos><start_of_turn>user\nHello!<end_of_turn>\n<start_of_turn>model\nHey there!<end_of_turn>\n<start_of_turn>user\nWhat is 1+1?<end_of_turn>\n<start_of_turn>model\n

详细指南：查看详细使用指南。

免费微调

免费微调Gemma 3n (4B)：使用Google Colab笔记本。
博客文章：阅读关于Gemma 3n支持的博客。
更多笔记本：查看其他笔记本。

Unsloth支持的模型及优势

Unsloth支持的模型	免费笔记本链接	性能	内存使用
Gemma-3n-E4B	立即在Colab开始	快2倍	减少80%
GRPO with Gemma 3 (1B)	立即在Colab开始	快2倍	减少80%
Gemma 3 (4B)	立即在Colab开始	快2倍	减少60%
Qwen3 (14B)	立即在Colab开始	快2倍	减少60%
DeepSeek-R1-0528-Qwen3-8B (14B)	立即在Colab开始	快2倍	减少80%
Llama-3.2 (3B)	立即在Colab开始	快2.4倍	减少58%

模型卡片

模型页面：Gemma 3n
资源与技术文档：
使用条款：条款
作者：Google DeepMind

✨ 主要特性

模型概述

Gemma是Google推出的轻量级、最先进的开源模型系列，基于与Gemini模型相同的研究和技术构建。Gemma 3n模型专为在低资源设备上高效运行而设计，支持多模态输入，包括文本、图像、视频和音频，并生成文本输出。预训练和指令微调版本的模型权重开放，且使用了超过140种语言的数据进行训练。

输入输出

输入：
- 文本字符串，如问题、提示或待总结的文档。
- 图像，归一化为256x256、512x512或768x768分辨率，并编码为每个256个令牌。
- 音频数据，单通道每秒编码为6.25个令牌。
- 总输入上下文为32K令牌。
输出：
- 针对输入生成的文本，如问题的答案、图像内容分析或文档摘要。
- 总输出长度最多为32K令牌，减去请求输入的令牌数。

📦 安装指南

首先，安装Transformers库。Gemma 3n从transformers 4.53.0版本开始支持。

$ pip install -U transformers

💻 使用示例

基础用法

使用pipeline API初始化模型和处理器进行推理：

from transformers import pipeline
import torch
pipe = pipeline(
    "image-text-to-text",
    model="google/gemma-3n-e4b-it",
    device="cuda",
    torch_dtype=torch.bfloat16,
)

高级用法

对于指令微调模型，需要先使用聊天模板处理输入，然后传递给pipeline：

messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
            {"type": "text", "text": "What animal is on the candy?"}
        ]
    }
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
# Okay, let's take a look!
# Based on the image, the animal on the candy is a **turtle**.
# You can see the shell shape and the head and legs.

在单个GPU上运行模型

from transformers import AutoProcessor, Gemma3nForConditionalGeneration
from PIL import Image
import requests
import torch
model_id = "google/gemma-3n-e4b-it"
model = Gemma3nForConditionalGeneration.from_pretrained(model_id, device_map="auto", torch_dtype=torch.bfloat16,).eval()
processor = AutoProcessor.from_pretrained(model_id)
messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
            {"type": "text", "text": "Describe this image in detail."}
        ]
    }
]
inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
    generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
# **Overall Impression:** The image is a close-up shot of a vibrant garden scene,
# focusing on a cluster of pink cosmos flowers and a busy bumblebee.
# It has a slightly soft, natural feel, likely captured in daylight.

📚 详细文档

模型数据

训练数据集

这些模型在包含约11万亿令牌的多样化数据集上进行训练，训练数据的知识截止日期为2024年6月。主要组成部分包括：

网页文档：多样化的网页文本集合，确保模型接触到广泛的语言风格、主题和词汇，训练数据集包含超过140种语言的内容。
代码：让模型接触代码有助于学习编程语言的语法和模式，提高生成代码和理解代码相关问题的能力。
数学：在数学文本上进行训练有助于模型学习逻辑推理、符号表示和解决数学查询。
图像：广泛的图像数据使模型能够执行图像分析和视觉数据提取任务。
音频：多样化的声音样本使模型能够识别语音、从录音中转录文本并识别音频数据中的信息。

数据预处理

训练数据应用了以下关键的数据清理和过滤方法：

CSAM过滤：在数据准备过程的多个阶段应用严格的CSAM（儿童性虐待材料）过滤，确保排除有害和非法内容。
敏感数据过滤：作为使Gemma预训练模型安全可靠的一部分，使用自动化技术从训练集中过滤出某些个人信息和其他敏感数据。
其他方法：根据我们的政策进行内容质量和安全性过滤。

实现信息

硬件

Gemma使用张量处理单元 (TPU)硬件（TPUv4p、TPUv5p和TPUv5e）进行训练。训练生成式模型需要大量的计算能力，TPU专为机器学习中常见的矩阵运算而设计，具有以下优势：

性能：TPU专门用于处理训练生成式模型涉及的大量计算，与CPU相比可以显著加速训练。
内存：TPU通常配备大量高带宽内存，允许在训练期间处理大型模型和批量大小，有助于提高模型质量。
可扩展性：TPU Pod（大型TPU集群）为处理大型基础模型的不断增长的复杂性提供了可扩展的解决方案，可以跨多个TPU设备分布训练以实现更快、更高效的处理。
成本效益：在许多情况下，与基于CPU的基础设施相比，TPU可以为训练大型模型提供更具成本效益的解决方案，特别是考虑到更快的训练节省的时间和资源。

软件

训练使用JAX和ML Pathways进行。JAX允许研究人员利用最新一代的硬件（包括TPU）进行更快、更高效的大型模型训练。ML Pathways是Google构建能够跨多个任务进行泛化的人工智能系统的最新努力，特别适用于基础模型，包括此类大型语言模型。

评估

基准测试结果

这些模型在全精度（float32）下针对大量不同的数据集和指标进行评估，以涵盖内容生成的不同方面。标记为IT的评估结果是针对指令微调模型，标记为PT的评估结果是针对预训练模型。

推理与事实性

基准测试	指标	n-shot	E2B PT	E4B PT
HellaSwag	准确率	10-shot	72.2	78.6
BoolQ	准确率	0-shot	76.4	81.6
PIQA	准确率	0-shot	78.9	81.0
SocialIQA	准确率	0-shot	48.8	50.0
TriviaQA	准确率	5-shot	60.8	70.2
Natural Questions	准确率	5-shot	15.5	20.9
ARC-c	准确率	25-shot	51.7	61.6
ARC-e	准确率	0-shot	75.8	81.6
WinoGrande	准确率	5-shot	66.8	71.7
BIG-Bench Hard	准确率	few-shot	44.3	52.9
DROP	令牌F1分数	1-shot	53.9	60.8

多语言

基准测试	指标	n-shot	E2B IT	E4B IT
MGSM	准确率	0-shot	53.1	60.7
WMT24++ (ChrF)	字符级F分数	0-shot	42.7	50.1
Include	准确率	0-shot	38.6	57.2
MMLU (ProX)	准确率	0-shot	8.1	19.9
OpenAI MMLU	准确率	0-shot	22.3	35.6
Global-MMLU	准确率	0-shot	55.1	60.3
ECLeKTic	ECLeKTic分数	0-shot	2.5	1.9

STEM与代码

基准测试	指标	n-shot	E2B IT	E4B IT
GPQA Diamond	宽松准确率/准确率	0-shot	24.8	23.7
LiveCodeBench v5	pass@1	0-shot	18.6	25.7
Codegolf v2.2	pass@1	0-shot	11.0	16.8
AIME 2025	准确率	0-shot	6.7	11.6

其他基准测试

基准测试	指标	n-shot	E2B IT	E4B IT
MMLU	准确率	0-shot	60.1	64.9
MBPP	pass@1	3-shot	56.6	63.6
HumanEval	pass@1	0-shot	66.5	75.0
LiveCodeBench	pass@1	0-shot	13.2	13.2
HiddenMath	准确率	0-shot	27.7	37.7
Global-MMLU-Lite	准确率	0-shot	59.0	64.5
MMLU (Pro)	准确率	0-shot	40.5	50.6

伦理与安全

评估方法

我们的评估方法包括结构化评估和对相关内容政策的内部红队测试。红队测试由多个不同的团队进行，每个团队有不同的目标和人工评估指标。这些模型针对与伦理和安全相关的多个不同类别进行评估，包括：

儿童安全：评估文本到文本和图像到文本的提示，涵盖儿童安全政策，包括儿童性虐待和剥削。
内容安全：评估文本到文本和图像到文本的提示，涵盖安全政策，包括骚扰、暴力和血腥内容以及仇恨言论。
代表性危害：评估文本到文本和图像到文本的提示，涵盖安全政策，包括偏见、刻板印象和有害关联或不准确信息。

除了开发阶段的评估，我们还进行“保证评估”，这是我们独立的内部评估，用于责任治理决策。这些评估与模型开发团队分开进行，以提供决策依据。

引用

@article{gemma_3n_2025,
    title={Gemma 3n},
    url={https://ai.google.dev/gemma/docs/gemma-3n},
    publisher={Google DeepMind},
    author={Gemma Team},
    year={2025}
}