X

Xclip Base Patch16 Hmdb 4 Shot

由 microsoft 开发
X-CLIP是CLIP的极简扩展,用于通用视频语言理解,通过(视频,文本)对的对比方式进行训练。
下载量 22
发布时间 : 9/7/2022
模型介绍
内容详情
替代品

模型简介

该模型是基础尺寸的X-CLIP模型,采用16像素块分辨率,在HMDB-51数据集上以少样本方式(K=4)训练,适用于视频分类任务。

模型特点

少样本学习能力
该模型在HMDB-51数据集上仅使用4个样本进行训练,展现了良好的少样本学习能力。
视频-文本对比学习
采用(视频,文本)对的对比学习方式,增强了模型对视频内容的理解能力。
高效视频处理
每视频处理32帧,分辨率为224x224,平衡了计算效率和模型性能。

模型能力

视频分类
视频-文本匹配
少样本学习

使用案例

视频理解
人类动作识别
识别视频中的人类动作类别
在HMDB-51数据集上达到57.3%的前1准确率
视频检索
基于文本的视频检索
根据文本描述检索相关视频片段