X

Xclip Base Patch16 16 Frames

由 microsoft 开发
X-CLIP是对CLIP的极简扩展,用于通用视频-语言理解,通过对比学习在(视频,文本)对上训练。
下载量 1,034
发布时间 : 9/7/2022
模型介绍
内容详情
替代品

模型简介

该模型可用于零样本、少样本或全监督的视频分类以及视频-文本检索任务。

模型特点

视频-语言理解
通过对比学习在(视频,文本)对上训练,支持视频与文本的匹配。
多任务支持
可用于零样本、少样本或全监督的视频分类以及视频-文本检索任务。
高效训练
训练时每段视频使用16帧,分辨率为224x224,优化了计算效率。

模型能力

视频分类
视频-文本检索
零样本学习
少样本学习

使用案例

视频分析
视频分类
对视频内容进行分类,如动作识别、场景识别等。
在Kinetics-400数据集上达到84.7%的前1准确率和96.8%的前5准确率。
视频-文本检索
根据文本描述检索相关视频,或根据视频内容生成匹配的文本描述。