B

Beit Large Patch16 512

由 microsoft 开发
BEiT是一种基于视觉Transformer的图像分类模型,通过自监督方式在ImageNet-21k上预训练,并在ImageNet-1k上微调。
下载量 683
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

BEiT模型采用类似BERT的Transformer编码器架构,通过掩码图像建模进行预训练,支持高分辨率图像分类任务。

模型特点

自监督预训练
使用ImageNet-21k数据集通过掩码图像建模进行预训练,学习图像的通用表示
高分辨率支持
支持512x512分辨率输入,相比标准224x224分辨率能捕捉更多细节
相对位置嵌入
采用类似T5的相对位置嵌入而非绝对位置嵌入,可能提升模型泛化能力

模型能力

图像分类
特征提取

使用案例

计算机视觉
通用图像分类
将图像分类为1000个ImageNet类别
在ImageNet验证集上达到高准确率(具体数值未提供)