B

Beit Base Finetuned Ade 640 640

由 microsoft 开发
BEiT是一种基于视觉Transformer(ViT)架构的模型,通过自监督学习在ImageNet-21k上预训练,并在ADE20k数据集上微调,专门用于图像语义分割任务。
下载量 1,645
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

BEiT模型采用类BERT的Transformer编码器架构,通过掩码图像块预测进行预训练,支持高分辨率图像语义分割,适用于场景解析等计算机视觉任务。

模型特点

自监督预训练
使用ImageNet-21k数据集通过掩码图像块预测进行预训练,学习图像内在表示
高分辨率微调
在ADE20k数据集上以640x640分辨率微调,优化语义分割性能
相对位置编码
采用类似T5的相对位置编码而非绝对位置编码,提升模型灵活性

模型能力

图像语义分割
场景解析
视觉特征提取

使用案例

计算机视觉
建筑物场景解析
对包含房屋、城堡等建筑物的图像进行语义分割,识别不同物体区域
在ADE20k基准数据集上取得先进结果
城市景观分析
解析城市街道图像,识别道路、车辆、行人等元素
在CityScapes等数据集上表现优异