X

Xclip Base Patch16 Hmdb 8 Shot

由 microsoft 开发
X-CLIP是CLIP的扩展版本,用于通用视频-语言理解,通过对比学习在视频和文本对上训练,适用于视频分类和视频-文本检索任务。
下载量 17
发布时间 : 9/7/2022
模型介绍
内容详情
替代品

模型简介

X-CLIP基础尺寸模型在HMDB-51数据集上以少样本方式训练,支持视频分类和视频-文本检索任务。

模型特点

少样本学习
模型在HMDB-51数据集上以8-shot方式训练,适用于少样本场景。
视频-语言理解
通过对比学习在视频和文本对上训练,支持视频与文本的匹配任务。
高分辨率处理
训练时每段视频使用32帧,分辨率为224x224,适合高分辨率视频分析。

模型能力

视频分类
视频-文本检索
少样本学习

使用案例

视频分析
动作识别
识别视频中的特定动作,如跑步、跳跃等。
在HMDB-51数据集上达到62.8%的top-1准确率。
视频-文本匹配
视频检索
根据文本描述检索相关视频片段。