V

Videomae Large

由 MCG-NJU 开发
VideoMAE是基于掩码自编码器(MAE)的视频自监督预训练模型,通过预测掩码视频块的像素值学习视频表征
下载量 3,243
发布时间 : 8/2/2022
模型介绍
内容详情
替代品

模型简介

该模型采用视觉Transformer架构,通过自监督方式在Kinetics-400数据集上预训练,适用于视频理解任务的特征提取

模型特点

视频自监督学习
采用掩码自编码框架,无需人工标注即可学习视频表征
高效数据利用
相比全监督方法,显著减少对标注数据的依赖
Transformer架构
基于视觉Transformer的编码器-解码器结构,适合处理视频序列数据

模型能力

视频特征提取
掩码像素预测
视频表征学习

使用案例

视频理解
视频分类
在预训练模型基础上微调用于视频分类任务
动作识别
提取视频特征用于人类动作识别