video-mask2former-swin-tiny-youtubevis-2021-instance开源模型

首页

Video Mask2former Swin Tiny Youtubevis 2021 Instance

由 shivalikasingh 开发

基于YouTubeVIS-2021数据集训练的微型视频实例分割模型，采用Swin Transformer骨干网络

图像分割

Transformers

开源协议:MIT #视频实例分割 #Swin骨干网络 #掩码注意力

下载量 22

发布时间 : 3/15/2023

模型简介

Video Mask2Former是Mask2Former的扩展版本，专为视频实例分割任务设计，采用统一架构处理分割任务，通过预测掩码及其对应标签实现高性能分割

模型特点

统一分割架构

采用统一范式处理实例分割、语义分割和全景分割任务，将所有任务视为实例分割处理

改进的注意力机制

使用多尺度可变形注意力Transformer替换像素解码器，并采用带掩码注意力的Transformer解码器提升性能

高效训练方法

通过基于采样点计算损失而非整张掩码，显著提升训练效率

视频处理能力

在不修改架构的情况下，直接应用于视频实例分割任务并达到最先进水平

模型能力

视频实例分割

对象掩码预测

多帧视频分析

使用案例

视频分析

视频对象跟踪与分割

对视频中的对象进行实例分割和跟踪

可生成逐帧的对象分割掩码

自动驾驶场景理解

分析道路场景视频，识别和分割各类交通参与者

🚀 视频Mask2Former

视频Mask2Former是一个在YouTubeVIS - 2021实例分割数据集上训练的模型（微小尺寸版本，采用Swin骨干网络）。它在论文用于视频实例分割的Mask2Former中被提出，并首次在此仓库发布。视频Mask2Former是原始Mask2Former论文的扩展，原论文名为用于通用图像分割的掩码注意力掩码变换器。

声明：发布Mask2Former的团队并未为此模型撰写模型卡片，此模型卡片由Hugging Face团队撰写。

✨ 主要特性

统一范式：Mask2Former使用相同的范式处理实例、语义和全景分割任务，即通过预测一组掩码和相应的标签，将这3个任务都视为实例分割任务。
性能卓越：在性能和效率方面均超越了之前的最优模型MaskFormer。具体通过以下方式实现：用更先进的多尺度可变形注意力变换器替换像素解码器；采用带有掩码注意力的变换器解码器，在不引入额外计算的情况下提升性能；通过在子采样点而非整个掩码上计算损失来提高训练效率。
视频分割表现出色：在论文用于视频实例分割的Mask2Former中，作者表明Mask2Former在不修改架构、损失函数甚至训练流程的情况下，在视频实例分割任务上也达到了最优性能。

📦 安装指南

文档中未提及具体安装步骤，故跳过此章节。

💻 使用示例

基础用法

import torch
import torchvision
from huggingface_hub import hf_hub_download
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation

# load Mask2Former trained on YouTubeVIS 2021 instance segmentation
processor = AutoImageProcessor.from_pretrained("facebook/video-mask2former-swin-tiny-youtubevis-2021-instance")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/video-mask2former-swin-tiny-youtubevis-2021-instance")

file_path = hf_hub_download(repo_id="shivi/video-demo", filename="cars.mp4", repo_type="dataset")
video = torchvision.io.read_video(file_path)[0]
video_frames = [image_processor(images=frame, return_tensors="pt").pixel_values for frame in video]
video_input = torch.cat(video_frames)

with torch.no_grad():
    outputs = model(**video_input)

# model predicts class_queries_logits of shape `(batch_size, num_queries, num_classes)`
# and masks_queries_logits of shape `(num_queries, batch_size, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
result = image_processor.post_process_video_instance_segmentation(outputs, target_sizes=[tuple(video.shape[1:3])])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)
predicted_video_instance_map = result["segmentation"]