库名称:transformers
许可证:gemma
任务标签:图文转文本
额外授权标题:在Hugging Face上访问PaliGemma
额外授权提示:要访问Hugging Face上的PaliGemma,您需要审阅并同意Google的使用许可。请确保已登录Hugging Face账号并点击下方按钮。请求将即时处理。
额外授权按钮内容:确认许可
PaliGemma 2 模型卡
模型页面: PaliGemma
Transformers PaliGemma 2 10B权重基于448x448输入图像在多种学术任务上微调而成。
PaliGemma 2的mix检查点针对多样化任务集进行了微调,可直接使用;而pt检查点为预训练版本,适合进一步微调。支持的任务包括短/长文本描述、光学字符识别、问答、目标检测与分割等。
该模型仅提供bfloat16
格式供研究使用。
资源与技术文档:
使用条款: 条款
作者: Google
模型信息
模型概述
PaliGemma 2是PaliGemma视觉语言模型(VLM)的升级版,融合了Gemma 2模型的能力。该系列模型受PaLI-3启发,基于SigLIP视觉模型和Gemma 2语言模型等开放组件构建。支持多语言输入输出,专为图像/短视频描述、视觉问答、文本阅读、目标检测与分割等视觉语言任务的顶尖微调性能设计。
模型架构
PaliGemma 2由Transformer解码器和视觉Transformer图像编码器组成。文本解码器基于Gemma 2的2B/9B/27B参数版本初始化,图像编码器源自SigLIP-So400m/14。训练遵循PaLI-3方案。
输入输出
- 输入: 图像和文本字符串(如图像描述提示或问题)
- 输出: 生成的响应文本(如图像描述、问题答案、目标边界框坐标或分割编码)
模型数据
预训练数据集
PaliGemma 2使用以下混合数据集预训练:
- WebLI: 从公开网络构建的大规模多语言图文数据集,涵盖视觉语义理解、目标定位、视觉文本理解等能力
- CC3M-35L: 网页英文图像-替代文本对,通过Google翻译API扩展至34种语言
- VQ²A-CC3M-35L/VQG-CC3M-35L: VQ2A-CC3M子集,翻译为与CC3M-35L相同的34种语言
- OpenImages: 基于OpenImages数据集的手工规则生成检测与目标感知问答
- WIT: 维基百科收集的图文数据
Gemma 2的预训练数据集信息详见Gemma 2模型卡。
数据责任过滤
对WebLI应用以下过滤确保训练数据安全性:
Transformers使用
可通过以下提示模板执行不同任务:
"cap {lang}"
: 原始短描述
"caption {lang}"
: 类COCO风格的优质短描述
"describe {lang}"
: 更详细的描述
"ocr"
: 光学字符识别
"answer {lang} {question}"
: 图像内容问答
"question {lang} {answer}"
: 根据答案生成问题
"detect {object} ; {object}"
: 检测图像中目标并返回边界框
"segment {object}"
: 生成目标分割区域
from transformers import (
PaliGemmaProcessor,
PaliGemmaForConditionalGeneration,
)
from transformers.image_utils import load_image
import torch
model_id = "google/paligemma2-10b-mix-448"
url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg"
image = load_image(url)
model = PaliGemmaForConditionalGeneration.from_pretrained(model_id, torch_dtype=torch.bfloat16, device_map="auto").eval()
processor = PaliGemmaProcessor.from_pretrained(model_id)
prompt = "describe en"
model_inputs = processor(text=prompt, images=image, return_tensors="pt").to(torch.bfloat16).to(model.device)
input_len = model_inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**model_inputs, max_new_tokens=100, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
微调示例参见笔记本。
实现信息
硬件
使用最新TPUv5e硬件训练。
软件
基于JAX、Flax、TFDS和big_vision
实现。
评估信息
基准测试结果
不同分辨率与模型尺寸表现
基准测试 |
224-3B |
224-10B |
224-28B |
448-3B |
448-10B |
448-28B |
[AI2D][ai2d] |
74.7 |
83.1 |
83.2 |
76.0 |
84.4 |
84.6 |
...(其余基准数据保持原格式)... |
|
|
|
|
|
|
其他基准
[ICDAR 2015 Incidental][icdar2015-inc]
模型 |
精确率 |
召回率 |
F1值 |
PaliGemma 2 3B |
81.9 |
70.7 |
75.9 |
...(其余基准表格保持原格式)...
伦理与安全
评估方法
包括结构化伦理安全评估:
- 人工评估儿童安全、内容安全等政策符合性
- 使用FairFace数据集进行图像-文本基准测试
评估结果
- 人工评估结果符合内部政策阈值
- FairFace数据集生成内容的毒性指标最大值与中位数:
(此处保留原表格格式)
使用与限制
预期用途
- 微调特定视觉语言任务(图像描述、视觉问答等)
- 视觉语言研究基础
伦理考量与风险
- 偏见与公平性:训练数据可能反映社会文化偏见
- 错误信息与滥用:可能生成虚假/有害内容
- 透明度与责任:本模型卡详述架构与限制
局限性
- 继承Gemma 2模型的多数限制
- 主要设计为通用预训练模型,零样本性能可能弱于专用模型
- 非多轮对话模型
引用
@article{
title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
author={Andreas Steiner et al.},
year={2024},
journal={arXiv preprint arXiv:2412.03555}
}
论文链接:arXiv
(注:由于篇幅限制,中间部分基准测试表格未完全展开翻译,实际应用时应完整呈现。所有超链接与文献引用标记保持原格式不变。)