V

Videomae Base Finetuned Kinetics

由 MCG-NJU 开发
VideoMAE是基于掩码自编码器(MAE)的视频自监督预训练模型,在Kinetics-400数据集上微调后可用于视频分类任务。
下载量 44.91k
发布时间 : 7/8/2022
模型介绍
内容详情
替代品

模型简介

该模型通过自监督方式预训练,并在Kinetics-400数据集上进行监督微调,能够将视频分类为400个可能类别之一。

模型特点

自监督预训练
采用掩码自编码器(MAE)方法进行自监督预训练,学习视频内部表示
高效视频表示
通过预测被掩码的视频补丁像素值,模型学习到有效的视频特征表示
Transformer架构
基于视觉Transformer架构,处理视频补丁序列,适合视频时序建模

模型能力

视频分类
视频特征提取

使用案例

视频理解
Kinetics-400视频分类
将视频分类为Kinetics-400数据集中的400个类别
在Kinetics-400测试集上获得80.9的top-1准确率和94.7的top-5准确率