V

Video Mask2former Swin Tiny Youtubevis 2021 Instance

由 shivalikasingh 开发
基于YouTubeVIS-2021数据集训练的微型视频实例分割模型,采用Swin Transformer骨干网络
下载量 22
发布时间 : 3/15/2023
模型介绍
内容详情
替代品

模型简介

Video Mask2Former是Mask2Former的扩展版本,专为视频实例分割任务设计,采用统一架构处理分割任务,通过预测掩码及其对应标签实现高性能分割

模型特点

统一分割架构
采用统一范式处理实例分割、语义分割和全景分割任务,将所有任务视为实例分割处理
改进的注意力机制
使用多尺度可变形注意力Transformer替换像素解码器,并采用带掩码注意力的Transformer解码器提升性能
高效训练方法
通过基于采样点计算损失而非整张掩码,显著提升训练效率
视频处理能力
在不修改架构的情况下,直接应用于视频实例分割任务并达到最先进水平

模型能力

视频实例分割
对象掩码预测
多帧视频分析

使用案例

视频分析
视频对象跟踪与分割
对视频中的对象进行实例分割和跟踪
可生成逐帧的对象分割掩码
自动驾驶场景理解
分析道路场景视频,识别和分割各类交通参与者