🚀 xGen-MM模型介绍
xGen-MM
是Salesforce AI Research开发的一系列最新基础大型多模态模型(LMMs)。该系列在 BLIP
系列的成功设计基础上进行了改进,融入了基础增强功能,确保了更强大、更卓越的基础。这些模型在高质量图像字幕数据集和交错的图像 - 文本数据上进行了大规模训练。
在2024年8月发布的v1.5版本中,我们推出了一系列XGen-MM模型,包括:
更多详细信息,请查看我们的 技术报告、微调代码 和项目页面(即将推出)。
✨ 主要特性
- 先进的架构:基于
BLIP
系列的成功设计,进行了基础增强,提供更强大的多模态处理能力。
- 大规模训练:在高质量图像字幕数据集和交错的图像 - 文本数据上进行了大规模训练。
- 多模型选择:提供多种不同类型的模型,以满足不同的应用需求。
📊 模型结果
单图像基准测试
模型(大小) |
SEED -IMG |
SEED v2 |
MMB (开发集) |
MM Star |
MME (归一化) |
CVB -2D |
CVB -3D |
RealW QA |
MMMU(验证集) |
Math Vista |
Sci QA |
POPE |
Text VQA |
所有平均 |
平均百分比 |
闭源模型 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
GPT - 4V* |
72.0 |
- |
80.8 |
49.7 |
63.3 |
64.3 |
73.8 |
56.5 |
53.8 |
48.2 |
82.1 |
75.4 |
- |
- |
- |
MM1 - 3B - Chat(3B) |
68.8 |
- |
67.8 |
- |
62.9 |
- |
- |
- |
33.9 |
- |
- |
87.4 |
- |
- |
- |
开源模型 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
HPT - 1.5 - edge(4B) |
72.3 |
- |
74.6 |
45.8 |
- |
- |
- |
- |
42.6 |
45.1 |
85.4 |
91.0 |
- |
- |
- |
VILA - 1.5 - 3B(3B) |
67.9 |
- |
63.4 |
- |
- |
- |
- |
- |
33.3 |
- |
69.0 |
85.9 |
- |
- |
- |
VILA - 1.5 - 3B**(3B) |
67.9 |
51.9 |
62.4 |
40.3 |
58.5 |
50.1 |
60.3 |
53.3 |
34.1 |
30.6 |
68.9 |
86.9 |
58.1 |
55.6 |
59.1 |
phi - 3 - vision(4B) |
- |
- |
80.5 |
- |
- |
- |
- |
- |
- |
44.5 |
90.8 |
85.8 |
70.9 |
- |
- |
phi - 3 - vision**(4B) |
71.0 |
52.7 |
74.2 |
47.9 |
55.3 |
60.7 |
68.2 |
59.1 |
46.1 |
45.1 |
90.2 |
83.5 |
73.3 |
63.6 |
63.6 |
xGen - MM - inst.(4B) |
71.8 |
53.9 |
76 |
46.7 |
63.8 |
66.2 |
75.4 |
61.6 |
42.8 |
39.2 |
85.6 |
87.0 |
72.0 |
64.8 |
66.9 |
xGen - MM - inst. - interleave(4B) |
72.2 |
55.5 |
76.8 |
48.1 |
64.4 |
69.3 |
72.3 |
60.5 |
41.1 |
39.6 |
88.3 |
87.0 |
71.0 |
65.1 |
67.3 |
* GPT - 4V(gpt - 4 - 1106 - preview)的结果取自这个第三方 排行榜。
** 模型结果使用我们的评估代码进行测试,以进行公平比较。
💻 使用示例
请查看我们的 推理笔记本 以获取使用我们模型的示例代码。我们还提供了 批量推理 的示例脚本。
🔍 可重复性
我们的评估基于 open - compass/VLMEvalKit 实现。我们将向该仓库提交一个PR,以支持XGen - MM评估。
⚠️ 偏差、风险、局限性和伦理考量
主要数据来源来自互联网,包括网页、图像素材网站和研究社区发布的精选数据集。由于已知的CSAM问题,我们排除了某些数据,如LAION。
模型可能受到原始数据源的偏差影响,以及大语言模型和商业API的偏差影响。
我们强烈建议用户在应用于下游应用之前评估安全性和公平性。
📜 伦理考量
此版本仅用于支持学术论文的研究目的。我们的模型、数据集和代码并非专门为所有下游目的而设计或评估。我们强烈建议用户在部署此模型之前评估并解决与准确性、安全性和公平性相关的潜在问题。我们鼓励用户考虑人工智能的常见局限性,遵守适用法律,并在选择用例时采用最佳实践,特别是在错误或滥用可能对人们的生活、权利或安全产生重大影响的高风险场景中。有关用例的更多指导,请参考我们的AUP和AI AUP。
📄 许可证
我们的代码和权重根据 Apache 2.0 许可证发布。
🙏 代码致谢
我们的训练代码基于 OpenFlamingo:用于训练大型多模态模型的开源框架。,部分数据预处理代码改编自 LLaVA。
指令模型的评估代码基于 VLMEvalKit:大型视觉 - 语言模型(LVLMs)的开源评估工具包。
感谢作者们的开源实现。
📚 引用
@misc{blip3-xgenmm,
author = {Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu},
title = {xGen-MM (BLIP-3): A Family of Open Large Multimodal Models},
year = {2024},
eprint = {2408.08872},
archivePrefix = {arXiv},
primaryClass = {cs.CV},
url = {https://arxiv.org/abs/2408.08872},
}
🛠️ 故障排除
- 如果您缺少任何软件包,请考虑以下操作:
pip install torch==2.2.1 torchvision==0.17.1 torchaudio==2.2.1 --index-url https://download.pytorch.org/whl/cu121
pip install open_clip_torch==2.24.0
pip install einops
pip install einops-exts
pip install transformers==4.41.1