V

Videomae Base

由 MCG-NJU 开发
VideoMAE是基于掩码自编码器(MAE)的视频自监督预训练模型,通过预测被掩码视频块的像素值学习视频内部表示。
下载量 48.66k
发布时间 : 8/3/2022
模型介绍
内容详情
替代品

模型简介

该模型是掩码自编码器在视频领域的扩展,采用视觉Transformer架构,顶部添加解码器用于预测被掩码块的像素值。主要用于视频特征提取和下游任务微调。

模型特点

视频自监督学习
通过掩码视频块预测任务实现无监督预训练,减少对标注数据的依赖
高效数据利用
相比传统方法,能在较少数据情况下学习有效视频表示
灵活下游应用
预训练模型可微调用于各种视频理解任务

模型能力

视频特征提取
掩码块像素预测
视频表示学习

使用案例

视频理解
视频分类
在预训练模型顶部添加分类层进行微调
动作识别
利用学习到的视频表示识别特定动作