X

Xclip Base Patch16 Kinetics 600

由 microsoft 开发
X-CLIP是CLIP的扩展版本,用于通用的视频语言理解,通过对比学习在(视频,文本)对上训练。
下载量 294
发布时间 : 9/8/2022
模型介绍
内容详情
替代品

模型简介

该模型是基础尺寸的X-CLIP模型,使用16x16的补丁分辨率,在Kinetics-600数据集上进行了全监督训练。适用于视频分类和视频-文本检索任务。

模型特点

视频语言理解
通过对比学习在视频和文本对上训练,支持视频与文本的匹配判断。
高准确率
在Kinetics 400数据集上达到85.3%的前1准确率和97.1%的前5准确率。
零样本和少样本学习
支持零样本、少样本或全监督的视频分类任务。

模型能力

视频分类
视频-文本检索
零样本学习
少样本学习

使用案例

视频分析
视频内容分类
对视频内容进行分类,识别视频中的动作或场景。
在Kinetics 400数据集上表现优异。
视频-文本匹配
判断给定文本是否与视频内容匹配。