xGen-MM-Vid开源视觉语言模型 - 高效理解视频内容，免费部署超实用！

首页

Xgen Mm Vid Phi3 Mini R V1.5 32tokens 8frames

由 Salesforce 开发

xGen-MM-Vid (BLIP-3-Video) 是一款高效紧凑的视觉语言模型，配备显式的时间编码器，专门用于理解视频内容。

视频生成文本

Safetensors

英语#视频理解 #时间编码器 #高效紧凑

下载量 441

发布时间 : 1/15/2025

模型简介

该模型在原始 BLIP-3 架构中融入了可学习的时间编码器模块，提升了对视频内容的理解能力。

模型特点

显式时间编码器

配备显式的时间编码器，能更好地理解视频内容。

高效紧凑

模型设计高效紧凑，适合处理视频内容。

可扩展性

原则上能够处理任意数量的帧，训练时使用 8 帧视频。

模型能力

视频内容理解

多模态处理

时间序列分析

使用案例

视频分析

视频问答

在 MSVD-QA 数据集上进行视频问答任务。

在视觉标记数量与准确率之间表现出良好的权衡关系。

🚀 xGen-MM-Vid (BLIP-3-Video)

xGen-MM-Vid (BLIP-3-Video) 是一款高效紧凑的视觉语言模型（VLM），配备显式的时间编码器，专门用于理解视频内容。该模型由 Salesforce AI Research 开发，其关键在于在原始（基于图像）的 BLIP-3 架构中融入了可学习的时间编码器模块。

🚀 快速开始

xGen-MM-Vid (BLIP-3-Video) 是专门用于理解视频的视觉语言模型，通过在原始 BLIP-3 架构中加入时间编码器模块，提升了对视频内容的理解能力。

✨ 主要特性

配备显式的时间编码器，能更好地理解视频内容。
在原始 BLIP-3 架构基础上，融入可学习的时间编码器模块。

📚 详细文档

模型描述

这里分享的是经过训练、可接受 8 帧视频输入的 32 个标记版本。原则上，它能够处理任意数量的帧，但训练时使用的是 8 帧视频。

同一模型的 128 个标记版本可在以下链接找到：BLIP-3-Video 128 标记模型。

更多详细信息，请查看我们的技术报告。也可以在博客文章中找到更详细的解释。

结果

标记数量与准确率

上图展示了包括 xGen-MM-Vid (BLIP-3-Video) 在内的各种视频模型在 MSVD-QA 数据集上的视觉标记数量与准确率之间的权衡关系。

示例

使用方法

请参考我们的推理脚本作为使用我们模型的示例。此代码库基于 xGen-MM 构建。

偏差、风险、局限性和伦理考量

主要数据源来自互联网，包括网页、视频素材网站以及研究社区发布的精选数据集。

该模型可能受到原始数据源的偏差影响，以及大语言模型（LLMs）和商业 API 的偏差影响。

我们强烈建议用户在应用于下游任务之前评估安全性和公平性。

伦理考量

本次发布仅用于支持学术论文的研究目的。我们的模型、数据集和代码并非专门为所有下游用途而设计或评估。我们强烈建议用户在部署此模型之前评估并解决与准确性、安全性和公平性相关的潜在问题。我们鼓励用户考虑人工智能的常见局限性，遵守适用法律，并在选择用例时采用最佳实践，特别是在错误或滥用可能对人们的生活、权利或安全产生重大影响的高风险场景中。有关用例的进一步指导，请参考我们的使用协议（AUP）和人工智能使用协议（AI AUP）。

代码致谢

我们的代码/模型基于 xGen-MM 构建。

引用

@misc{blip3video-xgenmmvid,
  author          = {Michael S. Ryoo and Honglu Zhou and Shrikant Kendre and Can Qin and Le Xue and Manli Shu and Silvio Savarese and Ran Xu and Caiming Xiong and Juan Carlos Niebles},
  title           = {xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs}, 
  year            = {2024},
  eprint          = {2410.16267},
  archivePrefix   = {arXiv},
  primaryClass    = {cs.CV},
  url             = {https://arxiv.org/abs/2410.16267}, 
}

故障排除

如果您缺少任何软件包，请考虑以下操作：

pip install torch==2.2.1 torchvision==0.17.1 torchaudio==2.2.1 --index-url https://download.pytorch.org/whl/cu121
pip install open_clip_torch==2.24.0
pip install einops
pip install einops-exts
pip install transformers==4.41.1