B

Beit Base Patch16 224

由 microsoft 开发
BEiT是一种基于视觉Transformer的模型,通过自监督学习在ImageNet-21k上预训练,并在ImageNet-1k上微调,用于图像分类任务。
下载量 58.34k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

BEiT模型采用类似BERT的Transformer编码器架构,通过掩码图像块预测任务进行预训练,能够学习图像的内在表示,适用于图像分类等下游任务。

模型特点

自监督预训练
通过掩码图像块预测任务在ImageNet-21k上进行预训练,学习图像的通用表示。
相对位置编码
采用相对位置编码(类似T5)而非绝对位置编码,提升模型对图像结构的理解能力。
平均池化分类
通过平均池化所有图像块的最终隐藏状态进行分类,而非依赖单一的[CLS]标记。

模型能力

图像分类
特征提取

使用案例

计算机视觉
图像分类
将图像分类为1,000个ImageNet类别之一。
在ImageNet基准测试中表现优异。