X

Xclip Base Patch16 Hmdb 2 Shot

由 microsoft 开发
X-CLIP是CLIP的扩展版本,用于通用视频语言理解,通过对比学习在视频和文本对上训练,支持零样本、少样本和全监督的视频分类任务。
下载量 19
发布时间 : 9/7/2022
模型介绍
内容详情
替代品

模型简介

X-CLIP模型(基础尺寸,16x16的补丁分辨率)在HMDB-51上以少样本方式(K=2)训练,适用于视频分类和视频-文本检索等任务。

模型特点

少样本学习能力
该模型在HMDB-51数据集上仅使用2个样本进行训练,展示了强大的少样本学习能力。
视频-文本对比学习
通过对比学习方式训练,能够理解视频内容与文本描述之间的关系。
多任务支持
支持零样本、少样本和全监督的视频分类任务,以及视频-文本检索等应用。

模型能力

视频分类
视频-文本检索
少样本学习
零样本推理

使用案例

视频理解
动作识别
识别视频中的人类动作
在HMDB-51数据集上达到53.0%的top-1准确率
视频内容检索
根据文本描述检索相关视频片段