B

Beit Large Finetuned Ade 640 640

由 microsoft 开发
BEiT是一种基于视觉Transformer架构的图像分割模型,通过自监督预训练和ADE20k数据集微调实现高效语义分割。
下载量 14.97k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型采用类BERT的Transformer编码器架构,专为图像语义分割任务设计,在ADE20k等基准数据集上表现优异。

模型特点

自监督预训练
在ImageNet-21k上通过掩码图像块预测任务进行预训练,学习通用视觉表示
高分辨率微调
在ADE20k数据集上以640x640分辨率微调,适应语义分割任务
相对位置编码
采用类似T5的相对位置编码而非绝对位置编码,提升位置感知能力

模型能力

图像语义分割
场景理解
视觉特征提取

使用案例

计算机视觉
建筑场景解析
对房屋、城堡等建筑场景进行像素级语义分割
在ADE20k数据集上达到SOTA效果
城市景观分析
识别城市环境中的道路、建筑、植被等要素
在CityScapes等基准测试中表现优异