库名称: big_vision
许可证: gemma
任务类型: 图文生成文本
额外授权标题: 在Hugging Face上访问PaliGemma
额外授权提示: 要访问Hugging Face上的PaliGemma,您需要审阅并同意Google的使用许可。请确保已登录Hugging Face账号并点击下方按钮。请求将立即处理。
授权按钮内容: 确认许可
PaliGemma 2模型卡片
模型页面: PaliGemma
这是用于big_vision
代码库的JAX/FLAX PaliGemma 2 3B权重文件。PaliGemma 2的mix检查点已在多样化任务上完成微调,可直接使用;而pt检查点是预训练版本,适合进一步微调。支持任务包括短/长文本描述、光学字符识别、问答、目标检测与分割等。
本模型仅提供bfloat16
格式供研究使用。
模型权重下载
首先通过Hugging Face CLI认证:
huggingface-cli login
使用以下命令下载模型权重:
huggingface-cli download --local-dir models google/paligemma2-3b-mix-224-jax
权重文件将下载至models
目录。
资源与技术文档:
使用条款: 条款详情
开发团队: Google
模型信息
模型概述
PaliGemma 2是对PaliGemma视觉语言模型(VLM)的升级版本,整合了Gemma 2模型的能力。该系列模型灵感源自PaLI-3,基于SigLIP视觉模型和Gemma 2语言模型等开放组件。支持多语言图文输入与文本输出,专为在图像/短视频描述、视觉问答、文本阅读、目标检测与分割等视觉语言任务上实现顶尖微调性能而设计。
架构设计
PaliGemma 2由Transformer解码器和Vision Transformer图像编码器组成。文本解码器基于2B/9B/27B参数的Gemma 2,图像编码器源自SigLIP-So400m/14。训练方案遵循PaLI-3方法。
输入输出
- 输入: 图像+文本字符串(如图像描述提示或问题)
- 输出: 生成的响应文本(如图像描述、问题答案、目标框坐标或分割编码)
训练数据
预训练数据集
混合使用以下数据集:
- WebLI: 来自公共网络的超大规模多语言图文数据集,用于获取视觉语义理解、目标定位、视觉文本理解等能力
- CC3M-35L: 网页英文图像-替代文本对,通过Google翻译API扩展至34种语言
- VQ²A-CC3M-35L/VQG-CC3M-35L: VQ2A-CC3M子集,同样扩展至34种语言
- OpenImages: 基于OpenImages数据集的手工规则生成检测与目标感知问答
- WIT: 维基百科收集的图文数据
Gemma 2的预训练数据集信息详见Gemma 2模型卡片。
数据责任过滤
对WebLI应用以下过滤策略:
实现信息
硬件
使用最新TPUv5e硬件训练。
软件
基于JAX、Flax、TFDS和big_vision
实现。微调与推理代码发布于big_vision
仓库。
评估结果
基准测试
在不同分辨率下评估模型迁移能力(所有测试数据均未参与预训练):
分辨率与模型尺寸对比
基准测试 |
224-3B |
224-10B |
224-28B |
448-3B |
448-10B |
448-28B |
[AI2D][ai2d] |
74.7 |
83.1 |
83.2 |
76.0 |
84.4 |
84.6 |
[AOKVQA-DA][aokvqa-da] (验证) |
64.2 |
68.9 |
70.2 |
67.9 |
70.8 |
71.2 |
...(完整表格见原文) |
|
|
|
|
|
|
其他基准
[ICDAR 2015 Incidental][icdar2015-inc]
模型 |
精确率 |
召回率 |
F1值 |
PaliGemma 2 3B |
81.9 |
70.7 |
75.9 |
...(其他基准结果详见原文)
伦理与安全
评估方法
采用结构化评估框架,包括:
- 人工评估儿童安全、内容安全等政策符合性
- 基于FairFace数据集等基准的图文生成毒性评估
评估结果
- 人工评估结果符合Google内部政策阈值
- FairFace数据集生成内容的毒性指标最大值/中位数:
(完整安全评估表格见原文)
使用与限制
适用场景
开放视觉语言模型的应用领域包括但不限于:
- 特定视觉语言任务微调:
- 图像/视频描述、视觉问答、文本阅读、目标检测与分割
- 遥感问答、盲人视觉辅助、科学问答等垂直领域
- 非文本输出任务(如边界框/分割掩码)
- 视觉语言研究基础
伦理风险与缓解
重点考量:
- 偏见问题: 通过数据预处理和后评估降低社会文化偏见
- 错误信息: 提供负责任AI工具包指南
- 透明度: 本模型卡详述架构/能力/限制
- 隐私保护: 训练数据已过滤敏感信息
局限性
- 继承Gemma 2的主要限制:
- 更擅长结构化提示任务,开放复杂任务可能表现欠佳
- 可能无法理解微妙语义或常识推理
- 非知识库,可能生成错误事实
- 主要设计为预训练基础模型,零样本性能可能弱于专用通用模型
- 不支持多轮对话
引用
@article{
title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
author={Andreas Steiner等},
year={2024},
journal={arXiv preprint arXiv:2412.03555}
}
论文链接:arXiv
(注:由于篇幅限制,部分基准测试表格和参考文献链接未完整呈现,完整内容请参考原文)