xGen-MM-Vid开源视觉语言模型 - 免费部署助力高效理解视频内容

首页

Xgen Mm Vid Phi3 Mini R V1.5 128tokens 8frames

由 Salesforce 开发

xGen-MM-Vid (BLIP-3-Video) 是一款高效的紧凑型视觉语言模型，配备了显式的时间编码器，专为理解视频内容而设计。

视频生成文本

Safetensors

英语#视频理解 #紧凑型VLM #时间编码器

下载量 398

发布时间 : 12/18/2024

模型简介

该模型由Salesforce AI Research开发，基于BLIP-3架构，融入了可学习的时间编码器模块，能够处理8帧视频输入。

模型特点

高效视频理解

配备了显式的时间编码器，专为理解视频内容而设计。

紧凑型模型

高效的紧凑型视觉语言模型，适合资源有限的环境。

多帧处理能力

可以处理8帧视频输入，理论上支持任意帧数。

模型能力

视频内容理解

多帧视频处理

视觉语言任务

使用案例

视频分析

视频问答

在MSVD-QA数据集上进行视频问答任务。

在视觉标记数量与准确性的权衡中表现优异。

🚀 xGen-MM-Vid (BLIP-3-Video) 模型

xGen-MM-Vid (BLIP-3-Video) 是一款高效紧凑的视觉语言模型（VLM），配备了显式的时间编码器，专门用于理解视频内容。该模型由 Salesforce AI Research 开发，其核心亮点在于在原始（基于图像）的 BLIP-3 架构中融入了可学习的时间编码器模块。

🚀 快速开始

本项目分享了经过训练、可处理 8 帧视频输入的 128 个标记版本的模型。原则上，该模型能够处理任意帧数的视频，但训练时使用的是 8 帧视频。

相同模型的 32 标记版本可在 BLIP-3-Video 32 token model 找到。

如需了解更多详细信息，请查看我们的技术报告。也可在博客文章中找到更详细的解释。

📚 详细文档

标记数量与准确率

上图展示了包括 xGen-MM-Vid (BLIP-3-Video) 在内的各种视频模型在 MSVD-QA 数据集上的视觉标记数量与准确率的权衡关系。

示例

💻 使用示例

请参考我们的推理脚本来使用我们的模型。此代码库基于 xGen-MM 构建。

🔧 技术细节

偏差、风险、限制和伦理考量

主要数据来源为互联网，包括网页、视频素材网站以及研究社区发布的精选数据集。该模型可能受到原始数据源的偏差影响，以及大语言模型（LLMs）和商业 API 的偏差影响。我们强烈建议用户在将其应用于下游任务之前，评估其安全性和公平性。

伦理考量

本次发布仅用于支持学术论文的研究目的。我们的模型、数据集和代码并非专门为所有下游用途而设计或评估。我们强烈建议用户在部署此模型之前，评估并解决与准确性、安全性和公平性相关的潜在问题。我们鼓励用户考虑人工智能的常见局限性，遵守适用法律，并在选择用例时采用最佳实践，特别是在错误或滥用可能对人们的生活、权利或安全产生重大影响的高风险场景中。有关用例的进一步指导，请参考我们的可接受使用政策（AUP）和人工智能可接受使用政策（AI AUP）。

📄 许可证

我们的代码和权重遵循 CC by-NC 4.0 许可证发布。

📝 代码致谢

我们的代码/模型基于 xGen-MM 构建。

📚 引用

@misc{blip3video-xgenmmvid,
  author          = {Michael S. Ryoo and Honglu Zhou and Shrikant Kendre and Can Qin and Le Xue and Manli Shu and Silvio Savarese and Ran Xu and Caiming Xiong and Juan Carlos Niebles},
  title           = {xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs}, 
  year            = {2024},
  eprint          = {2410.16267},
  archivePrefix   = {arXiv},
  primaryClass    = {cs.CV},
  url             = {https://arxiv.org/abs/2410.16267}, 
}

⚙️ 故障排除

如果您缺少任何软件包，请考虑执行以下操作：

pip install torch==2.2.1 torchvision==0.17.1 torchaudio==2.2.1 --index-url https://download.pytorch.org/whl/cu121
pip install open_clip_torch==2.24.0
pip install einops
pip install einops-exts
pip install transformers==4.41.1