V

Videomae Base Short

由 MCG-NJU 开发
VideoMAE是基于掩码自编码器(MAE)的视频自监督预训练模型,通过掩码补丁预测学习视频内部表示,适用于下游视频分类等任务。
下载量 886
发布时间 : 7/7/2022
模型介绍
内容详情
替代品

模型简介

该模型是掩码自编码器在视频领域的扩展,采用标准视觉Transformer架构,顶部添加解码器用于预测被掩码补丁的像素值。主要用于视频特征提取和下游任务微调。

模型特点

视频自监督学习
采用掩码自编码器框架,通过预测被掩码视频补丁进行自监督预训练
数据高效
相比全监督方法,能在较少标注数据情况下学习有效视频表示
Transformer架构
基于标准视觉Transformer架构,具有良好的可扩展性和迁移能力

模型能力

视频特征提取
视频表示学习
掩码补丁预测

使用案例

视频理解
视频分类
在预训练模型基础上微调用于视频分类任务
动作识别
可用于视频中人类动作识别任务