license: apache-2.0
language:
- en
pipeline_tag: image-text-to-text
模型描述
xGen-MM
是Salesforce AI Research开发的最新基础大型多模态模型(LMMs)系列。该系列在BLIP
系列成功设计的基础上进行了改进,通过根本性增强确保了更强大和卓越的基础。这些模型已在高质量图像字幕数据集和交错图文数据上进行了大规模训练。
在v1.5(2024年8月)版本中,我们推出了包括以下模型在内的xGen-MM系列:
更多详情,请查看我们的技术报告、微调代码和项目页面(即将推出)。
DPO模型结果
模型 |
VLGuard (↓) |
HallusionBench (↑) |
POPE (↑) |
MMBench (dev) (↑) |
SEED-IMG (↑) |
MMStar (↑) |
MME (norm) (↑) |
Phi-3-vision* |
9.1 |
- |
83.5 |
74.2 |
71.0 |
47.9 |
55.3 |
xgen-mm-phi3-mini-instruct-dpo-r-v1 (Ours) |
5.2 |
56.6 |
86.8 |
76.4 |
72.1 |
47.1 |
64.4 |
(* = 我们的评估)
我们展示了一些定性示例,展示了模型的多模态理解能力及其安全特性。
使用方法
请查看我们的推理笔记本以获取使用模型的示例代码。我们还提供了一个批量推理的示例脚本。
可复现性:
我们的评估基于open-compass/VLMEvalKit实现。我们将向该仓库提交PR以支持XGen-MM的评估。
偏见、风险、限制与伦理考量
主要数据来源为互联网,包括网页、图片库网站和研究社区发布的精选数据集。由于已知的CSAM问题,我们排除了某些数据(如LAION)。模型可能受到原始数据源的偏见以及LLMs和商业API的偏见影响。我们强烈建议用户在下游应用前评估安全性和公平性。
伦理考量
本次发布仅用于支持学术论文的研究目的。我们的模型、数据集和代码并非为所有下游用途设计或评估。我们强烈建议用户在部署前评估并解决与准确性、安全性和公平性相关的潜在问题。我们鼓励用户考虑AI的常见限制,遵守适用法律,并在选择用例时采用最佳实践,尤其是可能显著影响人们生活、权利或安全的高风险场景。有关用例的进一步指导,请参考我们的AUP和AI AUP。
许可证
我们的代码和权重根据Apache 2.0许可证发布。
代码致谢
我们的训练代码基于OpenFlamingo: An open-source framework for training large multimodal models.,部分数据预处理代码改编自LLaVA。我们的评估代码基于VLMEvalKit: Open-source evaluation toolkit of large vision-language models (LVLMs)。
感谢作者们的开源实现。
引用
@misc{blip3-xgenmm,
author = {Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu},
title = {xGen-MM (BLIP-3): A Family of Open Large Multimodal Models},
year = {2024},
eprint = {2408.08872},
archivePrefix = {arXiv},
primaryClass = {cs.CV},
url = {https://arxiv.org/abs/2408.08872},
}
故障排除
- 如果缺少任何包,请考虑安装以下内容
pip install torch==2.2.1 torchvision==0.17.1 torchaudio==2.2.1 --index-url https://download.pytorch.org/whl/cu121
pip install open_clip_torch==2.24.0
pip install einops
pip install einops-exts
pip install transformers==4.41.1