X

Xclip Base Patch16 Zero Shot

由 aurelio-ai 开发
X-CLIP是CLIP的极简扩展,用于通用视频-语言理解,通过对比学习训练视频和文本的匹配关系。
下载量 22
发布时间 : 11/8/2023

模型简介

X-CLIP模型(基础尺寸,16x16的补丁分辨率)在Kinetics-400上训练,适用于零样本、少样本或全监督的视频分类以及视频-文本检索等任务。

模型特点

零样本视频分类
无需微调即可直接应用于视频分类任务,支持零样本学习。
视频-文本匹配
能够判断文本描述与给定视频内容的匹配程度。
多任务支持
支持视频分类、视频-文本检索等多种任务。

模型能力

视频分类
视频-文本检索
零样本学习

使用案例

视频理解
视频分类
对视频内容进行分类,如动作识别、场景识别等。
在HMDB-51上零样本top-1准确率为44.6%,在UCF-101上为72.0%,在Kinetics-600上为65.2%。
视频-文本检索
根据文本描述检索相关视频内容。
AIbase
智启未来,您的人工智能解决方案智库
简体中文