Maskformer Swin Base Ade

由 facebook 开发

基于ADE20k数据集训练的MaskFormer语义分割模型，采用Swin骨干网络，统一处理实例/语义/全景分割任务

图像分割

Transformers

开源协议:其他 #统一分割范式 #Swin骨干网络 #语义分割

下载量 5,670

发布时间 : 3/2/2022

模型介绍

内容详情

替代品

模型简介

MaskFormer通过预测一组掩码及其对应标签，将实例分割、语义分割和全景分割统一视为实例分割问题处理

模型特点

统一分割范式

将实例/语义/全景分割统一建模为掩码预测问题

Swin骨干网络

采用Swin Transformer作为特征提取骨干网络

端到端训练

直接预测掩码和类别，无需后处理步骤

模型能力

图像语义分割

场景理解

像素级分类

使用案例

场景解析

建筑场景分割

对房屋、城堡等建筑场景进行语义分割

示例图片展示了建筑结构的精确分割效果

环境理解

户外场景分析

解析自然环境中的各类元素

许可协议: 其他
标签:

视觉
图像分割

数据集:

scene_parse_150

微件示例:

图片链接: https://huggingface.co/datasets/hf-internal-testing/fixtures_ade20k/resolve/main/ADE_val_00000001.jpg
示例标题: 房屋
图片链接: https://huggingface.co/datasets/hf-internal-testing/fixtures_ade20k/resolve/main/ADE_val_00000002.jpg
示例标题: 城堡

MaskFormer

基于ADE20k语义分割数据集训练的MaskFormer模型（基础版，Swin骨干网络）。该模型源自论文《Per-Pixel Classification is Not All You Need for Semantic Segmentation》，并首次发布于此代码库。

免责声明：MaskFormer研发团队未提供本模型的说明文档，本文档由Hugging Face团队撰写。

模型描述

MaskFormer采用统一范式处理实例分割、语义分割和全景分割任务：通过预测一组掩码及其对应标签。因此，所有三类任务均被视作实例分割问题。

模型架构图

使用场景与限制

该特定检查点可用于语义分割任务。访问模型中心可查看其他任务的微调版本。

使用方法

使用方式如下：

from transformers import MaskFormerFeatureExtractor, MaskFormerForInstanceSegmentation  
from PIL import Image  
import requests  

url = "https://huggingface.co/datasets/hf-internal-testing/fixtures_ade20k/resolve/main/ADE_val_00000001.jpg"  
image = Image.open(requests.get(url, stream=True).raw)  
feature_extractor = MaskFormerFeatureExtractor.from_pretrained("facebook/maskformer-swin-base-ade")  
inputs = feature_extractor(images=image, return_tensors="pt")  

model = MaskFormerForInstanceSegmentation.from_pretrained("facebook/maskformer-swin-base-ade")  
outputs = model(**inputs)  
# 模型预测形状为(batch_size, num_queries)的class_queries_logits  
# 以及形状为(batch_size, num_queries, height, width)的masks_queries_logits  
class_queries_logits = outputs.class_queries_logits  
masks_queries_logits = outputs.masks_queries_logits  

# 可将结果传入feature_extractor进行后处理  
# 可视化方法请参考MaskFormer文档"资源"章节的演示笔记  
predicted_semantic_map = feature_extractor.post_process_semantic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]