B

Beit Large Patch16 224 Pt22k

由 microsoft 开发
BEiT是一种基于视觉Transformer(ViT)的自监督学习模型,通过ImageNet-21k数据集预训练,用于图像分类任务。
下载量 237
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

BEiT模型采用类似BERT的Transformer编码器结构,通过自监督方式在ImageNet-21k数据集上预训练,学习图像的内部表示,可用于提取下游任务的特征。

模型特点

自监督预训练
通过掩码图像块预测视觉标记的方式进行预训练,无需标注数据。
相对位置嵌入
采用类似T5的相对位置嵌入,而非绝对位置嵌入,提升模型灵活性。
图像块平均池化
通过平均池化图像块的最终隐藏状态进行分类,而非依赖[CLS]标记。

模型能力

图像分类
特征提取

使用案例

计算机视觉
图像分类
可用于对图像进行分类,识别图像中的对象或场景。
在多个图像分类基准上表现优异(具体数据参见原论文)。