🚀 xGen-MM-Vid (BLIP-3-Video)
xGen-MM-Vid (BLIP-3-Video)
是一款高效紧凑的视觉语言模型(VLM),配备显式的时间编码器,专门用于理解视频内容。该模型由 Salesforce AI Research 开发,其关键在于在原始(基于图像)的 BLIP-3 架构中融入了可学习的时间编码器模块。
🚀 快速开始
xGen-MM-Vid (BLIP-3-Video)
是专门用于理解视频的视觉语言模型,通过在原始 BLIP-3 架构中加入时间编码器模块,提升了对视频内容的理解能力。
✨ 主要特性
配备显式的时间编码器,能更好地理解视频内容。
在原始 BLIP-3 架构基础上,融入可学习的时间编码器模块。
📚 详细文档
模型描述
这里分享的是经过训练、可接受 8 帧视频输入的 32 个标记版本。原则上,它能够处理任意数量的帧,但训练时使用的是 8 帧视频。
同一模型的 128 个标记版本可在以下链接找到:BLIP-3-Video 128 标记模型 。
更多详细信息,请查看我们的 技术报告 。也可以在 博客文章 中找到更详细的解释。
结果
标记数量与准确率
上图展示了包括 xGen-MM-Vid (BLIP-3-Video) 在内的各种视频模型在 MSVD-QA 数据集上的视觉标记数量与准确率之间的权衡关系。
示例
您的浏览器不支持视频标签。
您的浏览器不支持视频标签。
使用方法
请参考我们的 推理脚本 作为使用我们模型的示例。此代码库基于 xGen-MM 构建。
偏差、风险、局限性和伦理考量
主要数据源来自互联网,包括网页、视频素材网站以及研究社区发布的精选数据集。
该模型可能受到原始数据源的偏差影响,以及大语言模型(LLMs)和商业 API 的偏差影响。
我们强烈建议用户在应用于下游任务之前评估安全性和公平性。
伦理考量
本次发布仅用于支持学术论文的研究目的。我们的模型、数据集和代码并非专门为所有下游用途而设计或评估。我们强烈建议用户在部署此模型之前评估并解决与准确性、安全性和公平性相关的潜在问题。我们鼓励用户考虑人工智能的常见局限性,遵守适用法律,并在选择用例时采用最佳实践,特别是在错误或滥用可能对人们的生活、权利或安全产生重大影响的高风险场景中。有关用例的进一步指导,请参考我们的使用协议(AUP)和人工智能使用协议(AI AUP)。
代码致谢
我们的代码/模型基于 xGen-MM 构建。
引用
@misc{blip3video-xgenmmvid,
author = {Michael S. Ryoo and Honglu Zhou and Shrikant Kendre and Can Qin and Le Xue and Manli Shu and Silvio Savarese and Ran Xu and Caiming Xiong and Juan Carlos Niebles},
title = {xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs},
year = {2024},
eprint = {2410.16267},
archivePrefix = {arXiv},
primaryClass = {cs.CV},
url = {https://arxiv.org/abs/2410.16267},
}
故障排除
如果您缺少任何软件包,请考虑以下操作:
pip install torch==2.2.1 torchvision==0.17.1 torchaudio==2.2.1 --index-url https://download.pytorch.org/whl/cu121
pip install open_clip_torch==2.24.0
pip install einops
pip install einops-exts
pip install transformers==4.41.1
📄 许可证
我们的代码和权重遵循 CC by-NC 4.0 许可证发布。