M

Mask2former Swin Base IN21k Cityscapes Instance

由 facebook 开发
Mask2Former是基于Transformer的通用图像分割模型,统一处理实例、语义和全景分割任务。
下载量 53
发布时间 : 1/5/2023
模型介绍
内容详情
替代品

模型简介

该模型通过预测一组掩码及对应标签实现实例分割,采用Swin Transformer骨干网络并在Cityscapes数据集上微调。

模型特点

统一分割架构
将实例、语义和全景分割统一为掩码预测问题
高效注意力机制
采用多尺度可变形注意力和掩码注意力提升计算效率
训练优化
通过子采样点计算损失而非整张掩码,提高训练效率

模型能力

图像实例分割
多尺度特征提取
高效掩码预测

使用案例

计算机视觉
街景分析
对Cityscapes等街景数据集中的物体进行实例分割
可准确识别和分割道路、车辆、行人等对象
物体识别
识别和分割图像中的特定物体实例