B

Beit Large Patch16 224

由 microsoft 开发
BEiT是一种基于视觉Transformer(ViT)架构的图像分类模型,通过自监督学习在ImageNet-21k上预训练,并在ImageNet-1k上微调。
下载量 222.46k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

BEiT模型采用类似BERT的Transformer编码器架构,通过预测掩码图像块的视觉标记进行自监督预训练,最终用于图像分类任务。

模型特点

自监督预训练
采用类似BERT的掩码预测方法在ImageNet-21k上进行自监督预训练
相对位置编码
使用类似T5的相对位置编码而非绝对位置编码
高效特征提取
通过平均池化所有图像块的最终隐藏状态进行分类,而非依赖[CLS]标记

模型能力

图像分类
视觉特征提取

使用案例

计算机视觉
ImageNet图像分类
将输入图像分类为1000个ImageNet类别之一
在ImageNet基准测试上表现优异