Mask2Former开源图像分割模型 - 免费部署统一处理实例、语义和全景分割

首页

Mask2former Swin Base IN21k Cityscapes Instance

由 facebook 开发

Mask2Former是基于Transformer的通用图像分割模型，统一处理实例、语义和全景分割任务。

图像分割

Transformers

开源协议:其他 #通用图像分割 #掩码注意力机制 #多尺度变形注意力

下载量 53

发布时间 : 1/5/2023

模型简介

该模型通过预测一组掩码及对应标签实现实例分割，采用Swin Transformer骨干网络并在Cityscapes数据集上微调。

模型特点

统一分割架构

将实例、语义和全景分割统一为掩码预测问题

高效注意力机制

采用多尺度可变形注意力和掩码注意力提升计算效率

训练优化

通过子采样点计算损失而非整张掩码，提高训练效率

模型能力

图像实例分割

多尺度特征提取

高效掩码预测

使用案例

计算机视觉

街景分析

对Cityscapes等街景数据集中的物体进行实例分割

可准确识别和分割道路、车辆、行人等对象

物体识别

识别和分割图像中的特定物体实例

🚀 Mask2Former

Mask2Former是一个用于图像分割的模型，它采用相同的范式处理实例、语义和全景分割任务，在性能和效率上表现出色。该模型在Cityscapes实例分割任务上进行了训练，为图像分割领域提供了强大的解决方案。

🚀 快速开始

Mask2Former模型在Cityscapes实例分割任务上进行了训练（基础-IN21k版本，Swin骨干网络）。它在论文Masked-attention Mask Transformer for Universal Image Segmentation中被提出，并首次在此仓库发布。

声明：发布Mask2Former的团队并未为此模型编写模型卡片，此模型卡片由Hugging Face团队编写。

✨ 主要特性

统一范式处理多种分割任务

Mask2Former通过预测一组掩码和相应的标签，以相同的范式处理实例、语义和全景分割任务，将这3种任务都视为实例分割任务。

性能和效率提升

先进的注意力机制：用更高级的多尺度可变形注意力Transformer取代像素解码器。
掩码注意力Transformer解码器：采用带有掩码注意力的Transformer解码器，在不引入额外计算的情况下提升性能。
高效的训练方式：通过在子采样点而不是整个掩码上计算损失，提高训练效率。该模型在性能和效率上均优于之前的SOTA模型MaskFormer。

模型架构可视化

model image

📚 详细文档

预期用途和局限性

你可以使用此特定检查点进行实例分割。可查看模型中心，查找针对你感兴趣任务的其他微调版本。

使用方法

以下是使用此模型的示例代码：

import requests
import torch
from PIL import Image
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation


# load Mask2Former fine-tuned on Cityscapes instance segmentation
processor = AutoImageProcessor.from_pretrained("facebook/mask2former-swin-base-IN21k-cityscapes-instance")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/mask2former-swin-base-IN21k-cityscapes-instance")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)

# model predicts class_queries_logits of shape `(batch_size, num_queries)`
# and masks_queries_logits of shape `(batch_size, num_queries, height, width)`
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# you can pass them to processor for postprocessing
result = processor.post_process_instance_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
# we refer to the demo notebooks for visualization (see "Resources" section in the Mask2Former docs)
predicted_instance_map = result["segmentation"]