V

Videomae Large Finetuned Kinetics

由 MCG-NJU 开发
VideoMAE是基于掩码自编码器的自监督视频预训练模型,在Kinetics-400数据集上微调后可用于视频分类任务。
下载量 4,657
发布时间 : 8/2/2022
模型介绍
内容详情
替代品

模型简介

该模型通过自监督方式预训练,并在Kinetics-400上进行监督微调,能够将视频分类为400种可能的类别。

模型特点

自监督预训练
采用掩码自编码器(MAE)方法进行视频自监督预训练,数据效率高
视频理解能力强
在Kinetics-400数据集上微调后表现出优秀的视频分类能力
Transformer架构
基于视觉Transformer架构,能有效处理视频序列数据

模型能力

视频分类
视频特征提取
视频内容理解

使用案例

视频内容分析
视频分类
将视频分类为400种Kinetics-400类别中的一种
在Kinetics-400测试集上达到84.7%的top-1准确率
视频内容理解
提取视频的高级特征表示