B

Beit Base Patch16 224 Pt22k

由 microsoft 开发
BEiT是一种基于视觉Transformer的模型,通过自监督学习在ImageNet-21k数据集上预训练,用于图像分类任务。
下载量 2,647
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

BEiT模型是一种视觉Transformer(ViT),以自监督方式在ImageNet-21k数据集上预训练,主要用于图像分类任务。

模型特点

自监督预训练
模型通过自监督方式在ImageNet-21k数据集上预训练,学习图像的内在表示。
视觉Transformer架构
采用类似BERT的Transformer编码器模型,使用相对位置嵌入而非绝对位置嵌入。
掩码图像块预测
预训练目标基于掩码图像块预测OpenAI的DALL-E的VQ-VAE编码器生成的视觉标记。

模型能力

图像分类
特征提取

使用案例

计算机视觉
图像分类
使用预训练模型进行图像分类任务。
特征提取
提取图像特征用于下游任务。