M

Mask2former Swin Tiny Cityscapes Semantic

由 facebook 开发
Mask2Former 是一种统一的图像分割框架,能够处理实例分割、语义分割和全景分割任务。该模型基于Swin-Tiny骨干网络,并在Cityscapes数据集上进行了语义分割任务的微调。
下载量 55.98k
发布时间 : 1/5/2023
模型介绍
内容详情
替代品

模型简介

Mask2Former 通过预测一组掩码及其对应标签,将实例分割、语义分割和全景分割三大任务统一视为实例分割问题。相比前代模型MaskFormer,Mask2Former在性能和效率上均有显著提升。

模型特点

统一分割框架
将实例分割、语义分割和全景分割统一为单一框架处理
高效注意力机制
采用多尺度可变形注意力Transformer替代传统像素解码器
掩码注意力机制
引入掩码注意力机制的Transformer解码器,提升性能而不增加计算量
高效训练策略
通过采样点计算损失而非整张掩码,显著提升训练效率

模型能力

图像分割
语义分割
实例分割
全景分割

使用案例

自动驾驶
街景语义分割
对城市街景图像进行语义分割,识别道路、建筑物、行人等元素
在Cityscapes数据集上表现优异
医学影像
医学图像分析
可用于医学图像中的器官或病变区域分割