X

Xclip Large Patch14 16 Frames

由 microsoft 开发
X-CLIP是对CLIP的扩展,用于通用视频-语言理解,通过对比学习实现视频分类和视频-文本检索任务。
下载量 678
发布时间 : 9/7/2022
模型介绍
内容详情
替代品

模型简介

X-CLIP模型(大型,14像素块分辨率)在Kinetics-400上进行了全监督训练,支持零样本、少样本或全监督的视频分类及视频-文本检索任务。

模型特点

视频-语言对比学习
通过(视频,文本)对的对比方式进行训练,支持视频与文本的匹配任务。
高分辨率处理
训练时每段视频使用16帧,分辨率为336x336,确保细节捕捉能力。
通用视频理解
适用于多种视频理解任务,包括分类和检索。

模型能力

视频分类
视频-文本检索
零样本学习
少样本学习

使用案例

视频内容分析
视频分类
对视频内容进行分类,例如识别动作、场景等。
Top-1准确率87.7%,Top-5准确率97.4%。
视频-文本检索
根据文本描述检索相关视频片段。