B

Beit Large Patch16 384

由 microsoft 开发
BEiT是一种基于视觉Transformer的图像分类模型,通过自监督方式在ImageNet-21k上预训练,并在ImageNet-1k上微调。
下载量 44
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

BEiT模型是一种视觉Transformer(ViT),以自监督方式在大量图像上预训练,并通过微调用于图像分类任务。

模型特点

自监督预训练
使用ImageNet-21k数据集进行自监督预训练,学习图像的内在表示。
高分辨率微调
在ImageNet-1k上以384x384分辨率进行微调,提升分类性能。
相对位置嵌入
使用相对位置嵌入(类似T5)而非绝对位置嵌入,增强模型灵活性。

模型能力

图像分类
特征提取

使用案例

计算机视觉
ImageNet图像分类
将图像分类为1,000个ImageNet类别之一。
在ImageNet数据集上表现出色。