license: apache-2.0
language:
en
pipeline_tag: image-text-to-text
模型描述
xGen-MM
是Salesforce AI Research开发的最新基础大型多模态模型(LMMs)系列。该系列在BLIP
系列成功设计的基础上进行了改进,通过基础性增强确保了更强大和优越的模型基础。这些模型已在高质量图像描述数据集和交错图像-文本数据上进行了大规模训练。
在2024年8月发布的v1.5版本中,我们推出了以下XGen-MM模型:
更多详情,请查看我们的技术报告 、微调代码 和项目页面 。
结果
单图像基准测试
模型(大小)
SEED -IMG
SEED v2
MMB (dev)
MM Star
MME (norm)
CVB -2D
CVB -3D
RealW QA
MMMU (val)
Math Vista
Sci QA
POPE
Text VQA
平均分
平均百分比
闭源模型
GPT-4V*
72.0
-
80.8
49.7
63.3
64.3
73.8
56.5
53.8
48.2
82.1
75.4
-
-
-
MM1-3B-Chat (3B)
68.8
-
67.8
-
62.9
-
-
-
33.9
-
-
87.4
-
-
-
开源模型
HPT-1.5-edge (4B)
72.3
-
74.6
45.8
-
-
-
-
42.6
45.1
85.4
91.0
-
-
-
VILA-1.5-3B (3B)
67.9
-
63.4
-
-
-
-
-
33.3
-
69.0
85.9
-
-
-
VILA-1.5-3B** (3B)
67.9
51.9
62.4
40.3
58.5
50.1
60.3
53.3
34.1
30.6
68.9
86.9
58.1
55.6
59.1
phi-3-vision (4B)
-
-
80.5
-
-
-
-
-
-
44.5
90.8
85.8
70.9
-
-
phi-3-vision** (4B)
71.0
52.7
74.2
47.9
55.3
60.7
68.2
59.1
46.1
45.1
90.2
83.5
73.3
63.6
63.6
xGen-MM-inst. (4B)
71.8
53.9
76
46.7
63.8
66.2
75.4
61.6
42.8
39.2
85.6
87.0
72.0
64.8
66.9
xGen-MM-inst.-interleave (4B)
72.2
55.5
76.8
48.1
64.4
69.3
72.3
60.5
41.1
39.6
88.3
87.0
71.0
65.1
67.3
* GPT-4V(gpt-4-1106-preview)的结果来自第三方排行榜 。
** 模型结果使用我们的评估代码进行公平比较。
多图像基准测试
模型
BLINK
QBench-2
Mantis-eval
GPT-4V †
51.1
73.4
62.7
VILA-1.5-3B†† (3B)
39.8
51.7
41.9
xGen-MM-inst. (4B)
46.6
52.4
42.4
xGen-MM-inst.-interleave (4B)
49.7
75.1
56.7
† GPT-4V的结果来自各基准测试原始论文中报告的数字。
†† 模型结果使用我们的评估代码进行公平比较。
示例
使用方法
请查看我们的推理笔记本 以获取使用模型的示例代码。我们还提供了一个批量推理 的示例脚本。
可复现性
我们的评估基于open-compass/VLMEvalKit 实现。我们将向该仓库提交PR以支持XGen-MM的评估。
偏见、风险、限制和伦理考量
主要数据来源包括互联网上的网页、图片库网站以及研究社区发布的精选数据集。由于已知的CSAM问题,我们排除了某些数据,如LAION。模型可能受到原始数据源的偏见以及LLMs和商业API的偏见影响。我们强烈建议用户在下游应用前评估安全性和公平性。
许可证
我们的代码和权重在Apache 2.0 许可证下发布。
代码致谢
我们的训练代码基于OpenFlamingo: An open-source framework for training large multimodal models. ,部分数据预处理代码改编自LLaVA 。指导模型的评估代码基于VLMEvalKit: Open-source evaluation toolkit of large vision-language models (LVLMs) 。
我们感谢作者们的开源实现。
引用
@misc{blip3-xgenmm,
author = {Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu},
title = {xGen-MM (BLIP-3): A Family of Open Large Multimodal Models},
year = {2024},
eprint = {2408.08872},
archivePrefix = {arXiv},
primaryClass = {cs.CV},
url = {https://arxiv.org/abs/2408.08872},
}
故障排除
如果缺少任何包,请考虑以下安装:
伦理考量
本次发布仅用于支持学术论文的研究目的。我们的模型、数据集和代码并非专门设计或评估用于所有下游用途。我们强烈建议用户在部署此模型前评估并解决与准确性、安全性和公平性相关的潜在问题。我们鼓励用户考虑AI的常见限制,遵守适用法律,并在选择用例时利用最佳实践,特别是对于可能显著影响人们生活、权利或安全的高风险场景。有关用例的进一步指导,请参考我们的AUP和AI AUP。
pip install torch==2.2.1 torchvision==0.17.1 torchaudio==2.2.1 --index-url https://download.pytorch.org/whl/cu121
pip install open_clip_torch==2.24.0
pip install einops
pip install einops-exts
pip install transformers==4.41.1