B

Beit Base Patch16 224 Pt22k Ft22k

由 microsoft 开发
BEiT是一种基于视觉Transformer(ViT)的图像分类模型,通过自监督方式在ImageNet-22k上预训练,并在相同数据集上微调。
下载量 546.85k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

BEiT模型是一种视觉Transformer,以自监督方式在ImageNet-22k上预训练,并通过微调实现图像分类任务。

模型特点

自监督预训练
使用掩码图像块预测视觉标记的方式进行预训练,学习图像的内在表示。
相对位置嵌入
采用相对位置嵌入(类似T5)而非绝对位置嵌入,提升模型性能。
平均池化分类
通过平均池化图像块的最终隐藏状态进行分类,而非依赖[CLS]标记。

模型能力

图像分类
特征提取

使用案例

图像分类
ImageNet分类
将图像分类为ImageNet-22k的21,841个类别之一。