V

Vit Large Patch16 224 In21k

由 google 开发
基于ImageNet-21k数据集预训练的视觉Transformer模型,适用于图像特征提取和下游任务微调。
下载量 92.63k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是一种类似于BERT的Transformer编码器,通过监督学习在ImageNet-21k数据集上预训练而成,主要用于图像特征提取和分类任务。

模型特点

基于ImageNet-21k预训练
在包含1400万张图像和21,843个类别的ImageNet-21k数据集上预训练,具有强大的特征提取能力。
16x16图像块分割
将图像分割为固定大小的16x16像素块,并通过线性嵌入输入Transformer编码器。
包含预训练池化器
模型包含预训练的池化器,可直接用于下游任务的特征提取,无需从头训练。

模型能力

图像特征提取
图像分类
下游任务微调

使用案例

计算机视觉
图像分类
在预训练模型基础上添加线性层,用于特定图像分类任务。
在ImageNet等基准数据集上表现出色。
特征提取
提取图像的特征表示,用于其他视觉任务如目标检测、图像分割等。