X

Xgen Mm Vid Phi3 Mini R V1.5 32tokens 8frames

由 Salesforce 开发
xGen-MM-Vid (BLIP-3-Video) 是一款高效紧凑的视觉语言模型,配备显式的时间编码器,专门用于理解视频内容。
下载量 441
发布时间 : 1/15/2025

模型简介

该模型在原始 BLIP-3 架构中融入了可学习的时间编码器模块,提升了对视频内容的理解能力。

模型特点

显式时间编码器
配备显式的时间编码器,能更好地理解视频内容。
高效紧凑
模型设计高效紧凑,适合处理视频内容。
可扩展性
原则上能够处理任意数量的帧,训练时使用 8 帧视频。

模型能力

视频内容理解
多模态处理
时间序列分析

使用案例

视频分析
视频问答
在 MSVD-QA 数据集上进行视频问答任务。
在视觉标记数量与准确率之间表现出良好的权衡关系。
AIbase
智启未来,您的人工智能解决方案智库
简体中文