X

Xgen Mm Vid Phi3 Mini R V1.5 128tokens 8frames

由 Salesforce 开发
xGen-MM-Vid (BLIP-3-Video) 是一款高效的紧凑型视觉语言模型,配备了显式的时间编码器,专为理解视频内容而设计。
下载量 398
发布时间 : 12/18/2024
模型介绍
内容详情
替代品

模型简介

该模型由Salesforce AI Research开发,基于BLIP-3架构,融入了可学习的时间编码器模块,能够处理8帧视频输入。

模型特点

高效视频理解
配备了显式的时间编码器,专为理解视频内容而设计。
紧凑型模型
高效的紧凑型视觉语言模型,适合资源有限的环境。
多帧处理能力
可以处理8帧视频输入,理论上支持任意帧数。

模型能力

视频内容理解
多帧视频处理
视觉语言任务

使用案例

视频分析
视频问答
在MSVD-QA数据集上进行视频问答任务。
在视觉标记数量与准确性的权衡中表现优异。