M

Mask2former Swin Large Cityscapes Instance

由 facebook 开发
基于Swin大骨架架构的统一图像分割模型,支持实例/语义/全景分割任务
下载量 1,248
发布时间 : 1/5/2023
模型介绍
内容详情
替代品

模型简介

Mask2Former是采用Transformer架构的统一图像分割模型,通过预测掩码及对应标签实现实例分割、语义分割和全景分割三大任务的统一处理。

模型特点

统一分割框架
将实例分割、语义分割和全景分割统一视为掩码预测问题
多尺度可变形注意力
像素解码器采用多尺度可变形注意力机制提升特征提取能力
掩码注意力解码器
创新性引入带掩码注意力的Transformer解码器,在不增加计算量的情况下提升性能
高效训练策略
通过子采样点计算损失值,显著提升训练效率

模型能力

实例分割
语义分割
全景分割
图像场景理解

使用案例

自动驾驶
道路场景解析
识别城市道路中的车辆、行人、交通标志等实例
在Cityscapes数据集上达到SOTA性能
医学影像
器官分割
识别医学影像中的特定器官或病变区域