库名称: transformers
许可证: gemma
任务标签: 图像文本到文本
额外授权标题: 在Hugging Face上访问PaliGemma
额外授权提示: 要访问Hugging Face上的PaliGemma,您需要审阅并同意Google的使用许可。请确保已登录Hugging Face账号并点击下方按钮。请求将立即处理。
额外授权按钮内容: 确认许可
PaliGemma模型卡
模型页面: PaliGemma
Transformers PaliGemma 3B权重,预训练输入为224*224分辨率图像和128个token的文本序列。模型提供float32、bfloat16和float16格式用于微调。
资源与技术文档:
使用条款: 条款
作者: Google
模型信息
模型概述
描述
PaliGemma是一款轻量级多功能视觉语言模型(VLM),灵感来自PaLI-3,基于SigLIP视觉模型和Gemma语言模型等开放组件。支持多语言输入输出,专为图像视频描述、视觉问答、文本阅读、目标检测与分割等任务提供领先的微调性能。
架构
包含30亿参数的Transformer解码器与Vision Transformer图像编码器组合。文本解码器基于Gemma-2B初始化,图像编码器源自SigLIP-So400m/14,遵循PaLI-3方案训练。
输入输出
- 输入: 图像+文本提示(如图像描述指令或问题)
- 输出: 生成文本响应(如图像描述、问题答案、目标坐标或分割代码)
训练数据
预训练数据集
混合使用以下数据集:
- WebLI: 网络规模多语言图文数据集
- CC3M-35L: 经Google翻译API扩展至35种语言
- VQ²A/VQG-CC3M-35L: 视觉问答数据翻译版本
- OpenImages: 基于规则生成的目标检测问答
- WIT: 维基百科图文数据
数据过滤
应用色情图像过滤、文本安全过滤、毒性过滤(Perspective API)、个人信息过滤(Cloud DLP API)等多重保障措施。
使用方式
PaliGemma是单轮视觉模型,需通过任务前缀(如"detect/segment")指定任务类型。推荐使用微调后的混合任务模型paligemma-3b-mix-448,演示空间展示了其多任务能力。
Transformers代码示例
CPU运行(float32)
processor = AutoProcessor.from_pretrained("google/paligemma-3b-mix-224")
model = PaliGemmaForConditionalGeneration.from_pretrained(model_id).eval()
output = model.generate(**processor("caption es", image, return_tensors="pt"))
print(processor.decode(output[0][input_len:], skip_special_tokens=True))
GPU加速(bfloat16)
model = PaliGemmaForConditionalGeneration.from_pretrained(
model_id, torch_dtype=torch.bfloat16, device_map="cuda:0", revision="bfloat16"
)
4/8位量化
需安装bitsandbytes
:
quantization_config = BitsAndBytesConfig(load_in_8bit=True)
model = PaliGemmaForConditionalGeneration.from_pretrained(model_id, quantization_config=quantization_config)
基准测试
单任务微调表现
任务 |
指标 |
pt-224 |
pt-448 |
COCO描述(CIDEr) |
141.92 |
144.60 |
|
TextVQA(准确率) |
55.47 |
73.15 |
|
DocVQA(ANLS) |
43.74 |
84.77 |
|
混合任务模型
测试集 |
随机/流行/对抗准确率 |
POPE评估 |
88.00/86.63/85.67 |
伦理与安全
评估方法
- 人工评估儿童安全/内容安全/表征危害
- FairFace数据集毒性检测(Perspective API阈值0.8)
安全指标
指标 |
最大毒性比例 |
中位数 |
身份攻击 |
0.00% |
0.00% |
侮辱性内容 |
0.16% |
0.00% |
使用限制
- 主要作为迁移学习基础模型,"开箱即用"性能可能不及专用模型
- 不支持多轮对话
- 可能反映训练数据中的社会文化偏见
引用
@article{beyer2024paligemma,
title={{PaliGemma: A versatile 3B VLM for transfer}},
author={Lucas Beyer* et al.},
year={2024},
journal={arXiv:2407.07726}
}
论文链接