license: gemma
library_name: transformers
pipeline_tag: image-text-to-text
extra_gated_heading: 访问Hugging Face上的Gemma
extra_gated_prompt: 要访问Hugging Face上的Gemma,您需要审阅并同意Google的使用许可。请确保已登录Hugging Face账号并点击下方按钮。请求将立即处理。
extra_gated_button_content: 确认许可
base_model: google/gemma-3-4b-pt
Gemma 3模型卡
模型主页: Gemma
资源与技术文档:
- [Gemma 3技术报告][g3-tech-report]
- [负责任生成式AI工具包][rai-toolkit]
- [Kaggle上的Gemma][kaggle-gemma]
- [Vertex Model Garden上的Gemma][vertex-mg-gemma3]
使用条款: [条款][terms]
作者: Google DeepMind
模型信息
概述及输入输出的简要定义。
描述
Gemma是谷歌推出的轻量级尖端开源模型家族,基于与创建Gemini模型相同的研究和技术构建。Gemma 3是多模态模型,可处理文本和图像输入并生成文本输出,其预训练变体和指令调优变体均开放权重。Gemma 3拥有128K的大上下文窗口,支持140多种语言,且提供比前代更多的尺寸选择。Gemma 3模型适用于多种文本生成和图像理解任务,包括问答、摘要和推理。其较小体积使其可部署在资源有限的环境中(如笔记本电脑、台式机或自有云基础设施), democratizing尖端AI模型的访问并助力大众创新。
输入输出
-
输入:
- 文本字符串(如问题、提示或待摘要文档)
- 图像(归一化为896x896分辨率并编码为每张256个token)
- 总输入上下文:4B/12B/27B尺寸为128K token,1B尺寸为32K token
-
输出:
- 响应输入的生成文本(如问题答案、图像内容分析或文档摘要)
- 总输出上下文为8192个token
使用方式
以下快速入门代码需先安装Transformers库(Gemma 3需transformers 4.50.0+):
$ pip install -U transformers
使用pipeline
API
from transformers import pipeline
import torch
pipe = pipeline(
"image-text-to-text",
model="google/gemma-3-4b-it",
device="cuda",
torch_dtype=torch.bfloat16
)
指令调优模型需先用聊天模板处理输入:
messages = [
{"role": "system", "content": [{"type": "text", "text": "你是助手"}]},
{"role": "user", "content": [
{"type": "image", "url": "https://example.com/candy.jpg"},
{"type": "text", "text": "糖果上是什么动物?"}
]}
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
单卡/多卡运行
from transformers import AutoProcessor, Gemma3ForConditionalGeneration
model = Gemma3ForConditionalGeneration.from_pretrained("google/gemma-3-4b-it", device_map="auto").eval()
processor = AutoProcessor.from_pretrained("google/gemma-3-4b-it")
inputs = processor.apply_chat_template(messages, return_tensors="pt").to(model.device)
generation = model.generate(**inputs, max_new_tokens=100)
print(processor.decode(generation[0]))
模型数据
训练数据集
- 27B模型:14万亿token
- 12B模型:12万亿token
- 4B模型:4万亿token
- 1B模型:2万亿token
数据组成:
- 网络文档(覆盖140+语言)
- 代码(提升编程语言理解)
- 数学文本(增强逻辑推理)
- 图像(支持视觉任务)
数据预处理
- CSAM过滤(儿童安全内容)
- 敏感数据过滤
- 基于[安全政策][safety-policies]的质量筛选
实现信息
硬件
使用TPUv4p/v5p/v5e训练,优势包括:
- 高性能矩阵运算
- 大内存支持大批量训练
- 通过TPU Pods实现扩展性
- 符合[谷歌可持续承诺][sustainability]
软件
基于[JAX][jax]和[ML Pathways][ml-pathways]框架,采用Gemini论文中的"单控制器"编程模型。
评估
基准测试结果
推理与事实性
基准测试 |
1B |
4B |
12B |
27B |
HellaSwag |
62.3 |
77.2 |
84.2 |
85.6 |
TriviaQA |
39.8 |
65.8 |
78.2 |
85.5 |
多模态能力
测试集 |
4B |
12B |
27B |
COCO字幕生成 |
102 |
111 |
116 |
DocVQA |
72.8 |
82.3 |
85.6 |
完整结果详见模型卡表格。
伦理与安全
评估方法
- 儿童安全(CSAM过滤)
- 内容安全(暴力/仇恨言论检测)
- 表征危害(偏见/刻板印象分析)
改进亮点
相比前代Gemma,在无安全过滤条件下政策违规率显著降低,但评估仅限英语提示。
使用限制
适用场景
- 内容创作(文本/图像生成)
- 研究教育(NLP/视觉语言研究)
注意事项
- 训练数据偏差可能影响输出
- 对模糊语言/常识推理存在局限
- 需验证事实准确性
伦理风险缓解
- 持续监控偏见
- 提供[禁用用途政策][prohibited-use]
- 训练数据隐私过滤