license: gemma
library_name: transformers
pipeline_tag: image-text-to-text
extra_gated_heading: 访问Hugging Face上的Gemma
extra_gated_prompt: 要访问Hugging Face上的Gemma,您需要审阅并同意Google的使用许可协议。请确保已登录Hugging Face账号并点击下方按钮。请求将即时处理。
extra_gated_button_content: 确认许可协议
base_model: google/gemma-3-27b-pt
Gemma 3模型卡片
模型主页: Gemma
资源与技术文档:
使用条款: 条款
作者: Google DeepMind
模型信息
概述模型功能及输入输出定义。
描述
Gemma是谷歌推出的轻量级尖端开源模型家族,基于与创建Gemini模型相同的研究和技术构建。Gemma 3是多模态模型,可处理文本和图像输入并生成文本输出,其预训练变体和指令调优变体均开放权重。Gemma 3拥有128K的大上下文窗口,支持140多种语言,并提供比前代更多的尺寸选择。该系列模型适用于多种文本生成和图像理解任务,包括问答、摘要和推理。其相对较小的体积使其能够部署在资源有限的环境中,如笔记本电脑、台式机或自有云基础设施,从而 democratizing 尖端AI模型的访问,助力大众创新。
输入输出
-
输入:
- 文本字符串,如问题、提示或待摘要文档
- 图像,归一化为896x896分辨率并编码为每张256个token
- 总输入上下文长度:4B/12B/27B尺寸支持128K tokens,1B尺寸支持32K tokens
-
输出:
- 根据输入生成的文本响应,如问题答案、图像内容分析或文档摘要
- 总输出上下文长度:8192 tokens
使用示例
以下快速入门代码需先安装Transformers库(Gemma 3需4.50.0及以上版本):
$ pip install -U transformers
使用pipeline
API
初始化模型和处理器进行推理:
from transformers import pipeline
import torch
pipe = pipeline(
"image-text-to-text",
model="google/gemma-3-27b-it",
device="cuda",
torch_dtype=torch.bfloat16
)
指令调优模型需先使用聊天模板处理输入:
messages = [
{"role": "system", "content": [{"type": "text", "text": "你是有帮助的助手。"}]},
{"role": "user", "content": [
{"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
{"type": "text", "text": "糖果上是什么动物?"}
]}
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
单卡/多卡运行
from transformers import AutoProcessor, Gemma3ForConditionalGeneration
from PIL import Image
import requests
import torch
model_id = "google/gemma-3-27b-it"
model = Gemma3ForConditionalGeneration.from_pretrained(model_id, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(model_id)
inputs = processor.apply_chat_template(
messages, add_generation_prompt=True, tokenize=True,
return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=100)
decoded = processor.decode(generation[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True)
print(decoded)
引用
@article{gemma_2025,
title={Gemma 3},
url={https://goo.gle/Gemma3Report},
publisher={Kaggle},
author={Gemma Team},
year={2025}
}
模型数据
训练数据构成及处理方法。
训练数据集
模型训练使用了多样化文本数据:
- 网络文档:覆盖140+语言的网页文本
- 代码:提升编程语言理解能力
- 数学:增强逻辑推理能力
- 图像:支持视觉数据分析任务
27B/12B/4B/1B模型分别使用14/12/4/2万亿tokens训练。
数据预处理
关键清洗过滤方法:
- CSAM过滤:多阶段儿童性虐待材料过滤
- 敏感数据过滤:自动移除个人信息
- 质量安全过滤:遵循安全政策
实现信息
硬件
使用TPUv4p/v5p/v5e进行训练,优势包括:
- 性能:专为矩阵运算优化
- 内存:大带宽内存支持大批量训练
- 扩展性:TPU Pods集群支持分布式训练
- 成本效益:相比CPU更具性价比
- 符合[谷歌可持续发展承诺][sustainability]
软件
基于JAX和ML Pathways训练:
- JAX支持TPU硬件加速
- ML Pathways实现多任务泛化能力
- 采用Gemini论文所述的单控制器编程模型
评估
基准测试结果
推理与事实性
基准测试 |
1B |
4B |
12B |
27B |
HellaSwag (10-shot) |
62.3 |
77.2 |
84.2 |
85.6 |
BoolQ (0-shot) |
63.2 |
72.3 |
78.8 |
82.4 |
STEM与编程
基准测试 |
4B |
12B |
27B |
MMLU (5-shot) |
59.6 |
74.5 |
78.6 |
HumanEval (0-shot) |
36.0 |
45.7 |
48.8 |
多语言能力
基准测试 |
1B |
4B |
12B |
27B |
MGSM |
2.04 |
34.7 |
64.3 |
74.3 |
XQuAD (all) |
43.9 |
68.0 |
74.5 |
76.8 |
多模态能力
基准测试 |
4B |
12B |
27B |
COCOcap |
102 |
111 |
116 |
DocVQA (val) |
72.8 |
82.3 |
85.6 |
伦理与安全
评估方法
通过结构化评估和内部红队测试验证:
- 儿童安全:儿童性虐待内容检测
- 内容安全:暴力、骚扰、仇恨言论筛查
- 表征危害:偏见与刻板印象分析
评估结果
相比前代Gemma模型,在儿童安全、内容安全和表征危害方面均有显著提升。所有测试均在未启用安全过滤器的情况下进行,测试仅包含英文提示。
使用与限制
适用场景
- 内容创作:文本生成、聊天机器人、图像数据提取
- 研究教育:NLP研究、语言学习工具、知识探索
局限性
- 训练数据偏差可能影响输出
- 复杂任务和模糊语言处理存在挑战
- 可能生成事实性错误内容
- 常识推理能力有限
伦理风险与缓解
- 偏见传播:持续监控和去偏技术
- 有害内容:实施内容安全机制
- 恶意滥用:遵循禁止使用政策
- 隐私保护:训练数据已过滤敏感信息
优势
相比同类开源模型,Gemma 3提供: