VideoMAE-base-short-ssv2开源视频模型 - 助力视频自监督预训练，免费好用！

首页

Videomae Base Short Ssv2

由 MCG-NJU 开发

VideoMAE是基于掩码自编码器(MAE)的视频自监督预训练模型，在Something-Something-v2数据集上进行了800轮预训练。

视频处理

Transformers

#视频掩码自编码 #自监督预训练 #时空特征学习

下载量 112

发布时间 : 8/2/2022

模型简介

该模型通过自监督方式学习视频内部表征，主要用于下游任务的微调，如视频分类等。

模型特点

视频自监督学习

采用掩码自编码器(MAE)方法进行视频自监督预训练，无需标注数据

高效预训练

在Something-Something-v2数据集上进行了800轮预训练，学习视频内部表征

下游任务适配

预训练模型可通过微调适配各种视频理解任务

模型能力

视频特征提取

自监督学习

视频表征学习

使用案例

视频理解

视频分类

在预训练模型基础上微调，用于视频内容分类

行为识别

可用于视频中人类行为识别任务

🚀 VideoMAE（基础尺寸模型，仅预训练）

VideoMAE 模型在 Something-Something-v2 数据集上以自监督方式预训练了 800 个周期。该模型由 Tong 等人在论文 VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training 中提出，并首次在此仓库中发布。

免责声明：发布 VideoMAE 的团队未为此模型编写模型卡片，此模型卡片由 Hugging Face 团队编写。

✨ 主要特性

VideoMAE 是 Masked Autoencoders (MAE) 在视频领域的扩展，模型架构与标准的视觉变换器（ViT）非常相似，顶部有一个解码器用于预测掩码块的像素值。
通过预训练，模型学习到视频的内部表示，可用于提取对下游任务有用的特征。

📚 详细文档

模型描述

VideoMAE 将视频表示为固定大小的块（分辨率 16x16）序列，并进行线性嵌入。在序列开头添加一个 [CLS] 标记用于分类任务，在将序列输入到 Transformer 编码器层之前，还添加了固定的正弦/余弦位置嵌入。

通过预训练，模型学习到视频的内部表示，可用于提取对下游任务有用的特征。例如，如果有一个带标签的视频数据集，可以在预训练的编码器顶部放置一个线性层来训练一个标准分类器。通常在 [CLS] 标记顶部放置一个线性层，因为该标记的最后隐藏状态可以看作是整个视频的表示。

预期用途和限制

可以使用原始模型来预测视频掩码块的像素值，但它主要用于在下游任务上进行微调。请参阅模型中心以查找针对你感兴趣的任务进行微调的版本。

如何使用

以下是如何使用此模型预测随机掩码块的像素值：

from transformers import VideoMAEImageProcessor, VideoMAEForPreTraining
import numpy as np
import torch

num_frames = 16
video = list(np.random.randn(16, 3, 224, 224))

processor = VideoMAEImageProcessor.from_pretrained("MCG-NJU/videomae-base-short-ssv2")
model = VideoMAEForPreTraining.from_pretrained("MCG-NJU/videomae-base-short-ssv2")

pixel_values = processor(video, return_tensors="pt").pixel_values

num_patches_per_frame = (model.config.image_size // model.config.patch_size) ** 2
seq_length = (num_frames // model.config.tubelet_size) * num_patches_per_frame
bool_masked_pos = torch.randint(0, 2, (1, seq_length)).bool()

outputs = model(pixel_values, bool_masked_pos=bool_masked_pos)
loss = outputs.loss

更多代码示例，请参考文档。

训练数据

（待补充，欢迎提交 PR）

训练过程

预处理

（待补充，欢迎提交 PR）

预训练

（待补充，欢迎提交 PR）

评估结果

（待补充，欢迎提交 PR）

BibTeX 引用信息

misc{https://doi.org/10.48550/arxiv.2203.12602,
  doi = {10.48550/ARXIV.2203.12602},
  url = {https://arxiv.org/abs/2203.12602},
  author = {Tong, Zhan and Song, Yibing and Wang, Jue and Wang, Limin},
  keywords = {Computer Vision and Pattern Recognition (cs.CV), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training},
  publisher = {arXiv},
  year = {2022},
  copyright = {Creative Commons Attribution 4.0 International}
}