X

Xclip Base Patch16 Hmdb 16 Shot

由 microsoft 开发
X-CLIP是CLIP的扩展版本,用于通用视频语言理解,支持视频分类和视频-文本检索任务。
下载量 49
发布时间 : 9/7/2022
模型介绍
内容详情
替代品

模型简介

X-CLIP模型(基础尺寸,16x16的补丁分辨率)在HMDB-51上以少样本方式(K=16)训练,适用于视频分类任务。

模型特点

少样本学习
模型在HMDB-51数据集上以少样本方式(K=16)训练,适合数据稀缺场景。
视频-文本对比学习
采用对比学习方式训练,能够理解视频和文本之间的关系。
高分辨率处理
训练时每段视频使用32帧,分辨率为224x224,适合高分辨率视频分析。

模型能力

视频分类
视频-文本检索
少样本学习

使用案例

视频理解
动作识别
识别视频中的人类动作,如跑步、跳跃等。
在HMDB-51数据集上达到64.0%的前1准确率。