B

Beit Base Patch16 384

由 microsoft 开发
BEiT是一种基于视觉Transformer架构的图像分类模型,通过自监督方式在ImageNet-21k上预训练,并在ImageNet-1k上微调。
下载量 146
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

BEiT模型采用类似BERT的Transformer编码器架构,通过自监督学习在大型图像数据集上预训练,能够有效提取图像特征并用于分类任务。

模型特点

自监督预训练
使用ImageNet-21k数据集通过自监督方式进行预训练,学习图像的通用表示。
高分辨率微调
在ImageNet-1k数据集上以384x384分辨率进行微调,提高分类性能。
相对位置编码
采用类似T5的相对位置编码而非绝对位置编码,增强模型对图像结构的理解。

模型能力

图像分类
特征提取

使用案例

计算机视觉
图像分类
将输入图像分类为1000个ImageNet类别之一。
在ImageNet基准测试上表现出色。