库名称:transformers
许可证:gemma
流水线标签:图像文本到文本
额外授权标题:在Hugging Face上访问PaliGemma
额外授权提示:要在Hugging Face上访问PaliGemma,您需要审阅并同意Google的使用许可。请确保您已登录Hugging Face账号并点击下方按钮。请求将立即处理。
额外授权按钮内容:确认许可
PaliGemma 2模型卡
模型页面: PaliGemma
Transformers PaliGemma 2 28B权重基于448x448输入图像在多种学术任务上微调而成。
PaliGemma 2的mix检查点针对多样化任务集进行了微调,可直接使用;而pt检查点为预训练版本,适用于进一步微调。任务涵盖短/长描述生成、光学字符识别、问答、目标检测与分割等。
该模型仅以bfloat16
格式提供,仅供研究用途。
资源与技术文档:
使用条款: 条款
作者: Google
模型信息
模型概述
PaliGemma 2是对PaliGemma视觉语言模型(VLM)的升级,融合了Gemma 2模型的能力。该系列模型受PaLI-3启发,基于SigLIP视觉模型和Gemma 2语言模型等开放组件构建。支持多语言输入(图像+文本)并输出文本,专为图像/短视频描述、视觉问答、文本阅读、目标检测与分割等任务的卓越微调性能设计。
模型架构
PaliGemma 2由Transformer解码器与Vision Transformer图像编码器组成。文本解码器源自Gemma 2的2B/9B/27B参数版本,图像编码器基于SigLIP-So400m/14。训练遵循PaLI-3方案。
输入输出
- 输入: 图像+文本字符串(如图像描述提示或问题)
- 输出: 生成文本响应(如图像描述、问题答案、目标边界框坐标或分割编码)
模型数据
预训练数据集
预训练数据混合包括:
- WebLI: 来自公开网络的多语言图文数据集,用于视觉语义理解、目标定位等能力
- CC3M-35L: 网页英文图文对,通过Google翻译API扩展至34种语言
- VQ²A-CC3M-35L/VQG-CC3M-35L: 视觉问答数据子集的34语言翻译版本
- OpenImages: 基于规则生成的检测与目标感知问答数据
- WIT: 维基百科图文集合
Gemma 2的预训练数据集信息详见Gemma 2模型卡。
数据责任过滤
对WebLI应用以下安全过滤:
Transformers使用示例
可通过以下提示模板执行不同任务:
"cap {lang}"
: 简短描述
"caption {lang}"
: 类COCO风格描述
"describe {lang}"
: 详细描述
"ocr"
: 文字识别
"answer {lang} {question}"
: 图像问答
"detect {object}"
: 目标检测
"segment {object}"
: 图像分割
from transformers import PaliGemmaProcessor, PaliGemmaForConditionalGeneration
from transformers.image_utils import load_image
import torch
model_id = "google/paligemma2-28b-mix-448"
url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg"
image = load_image(url)
model = PaliGemmaForConditionalGeneration.from_pretrained(model_id, torch_dtype=torch.bfloat16, device_map="auto").eval()
processor = PaliGemmaProcessor.from_pretrained(model_id)
prompt = "describe en"
model_inputs = processor(text=prompt, images=image, return_tensors="pt").to(torch.bfloat16).to(model.device)
input_len = model_inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**model_inputs, max_new_tokens=100, do_sample=False)
print(processor.decode(generation[0][input_len:], skip_special_tokens=True))
微调示例参见此笔记本。
实现信息
硬件
使用TPUv5e硬件训练。
软件
基于JAX、Flax、TFDS和big_vision实现。
评估结果
基准测试
分辨率与模型规模性能对比
基准测试 |
224-3B |
224-10B |
224-28B |
448-3B |
448-10B |
448-28B |
AI2D |
74.7 |
83.1 |
83.2 |
76.0 |
84.4 |
84.6 |
AOKVQA-DA (val) |
64.2 |
68.9 |
70.2 |
67.9 |
70.8 |
71.2 |
...(其余数据见原表) |
|
|
|
|
|
|
专项基准
- ICDAR 2015 Inc: F1 75.9 (3B)
- Total-Text: F1 74.2 (3B)
- FinTabNet: TEDS 98.9 (3B)
- PubChem: 全匹配率94.8% (3B)
伦理与安全
评估方法
包括儿童安全、内容安全等人工评估,以及FairFace数据集基准测试。
评估结果
毒性内容生成率低于0.39%(各子组最大值),符合内部政策阈值。
使用限制
适用场景
- 视觉语言任务微调(描述生成、问答、检测等)
- 视觉语言研究基础
风险与缓解
- 偏见延续: 建议持续监控并采用去偏技术
- 有害内容生成: 需实施内容安全机制
- 隐私风险: 训练数据已过滤敏感信息,开发者需遵守隐私法规
局限性
- 主要作为微调基础模型,零样本性能可能低于专用模型
- 非多轮对话模型,仅支持单轮图像文本输入
引用
@article{
title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
author={Andreas Steiner et al.},
year={2024},
journal={arXiv preprint arXiv:2412.03555}
}
论文链接: arXiv