B

Beit Large Patch16 224 Pt22k Ft22k

由 microsoft 开发
BEiT是一种基于视觉Transformer(ViT)的图像分类模型,通过自监督方式在ImageNet-22k上预训练并在相同数据集上微调。
下载量 1,880
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

BEiT模型是一种视觉Transformer(ViT),以自监督方式在ImageNet-22k上预训练,并在相同数据集上微调,主要用于图像分类任务。

模型特点

自监督预训练
模型通过掩码图像块预测视觉标记的方式进行自监督预训练,学习图像的内在表示。
相对位置嵌入
使用相对位置嵌入而非绝对位置嵌入,提升模型对图像结构的理解能力。
大规模数据集训练
在ImageNet-22k(1400万张图像,21,841个类别)上进行预训练和微调。

模型能力

图像分类
特征提取

使用案例

图像分类
ImageNet分类
将图像分类为21,841个ImageNet-22k类别之一。