V

Videomae Base Finetuned Ssv2

由 MCG-NJU 开发
VideoMAE是基于掩码自编码器(MAE)的视频自监督预训练模型,在Something-Something-v2数据集上微调用于视频分类任务。
下载量 951
发布时间 : 8/2/2022
模型介绍
内容详情
替代品

模型简介

该模型采用自监督方式预训练,并在Something-Something-v2数据集上进行监督式微调,主要用于视频分类任务。

模型特点

自监督预训练
采用掩码自编码器(MAE)方法进行视频自监督预训练,减少对标注数据的依赖
高效视频表征学习
通过掩码和重建机制学习视频的内部表征,可有效提取视频特征
Transformer架构
基于视觉Transformer架构,处理视频作为固定尺寸区块序列

模型能力

视频分类
视频特征提取

使用案例

视频理解
动作识别
识别视频中的人类动作和行为
在Something-Something-v2测试集上达到70.6% top-1准确率