V

Vit Large Patch32 384

由 google 开发
该视觉Transformer(ViT)模型先在ImageNet-21k数据集上预训练,后在ImageNet数据集上微调,适用于图像分类任务。
下载量 118.37k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是一种类似BERT的Transformer编码器模型,采用监督方式在ImageNet-21k大规模图像集上进行预训练,随后在更高分辨率的ImageNet数据集上微调。

模型特点

大规模预训练
模型先在ImageNet-21k数据集(1400万张图像,21,843个类别)上预训练,学习到图像的内在表征。
高分辨率微调
在ImageNet数据集上以384x384分辨率进行微调,提升分类性能。
Transformer编码器
采用类似BERT的Transformer编码器结构,处理图像为固定尺寸的序列块并线性嵌入。

模型能力

图像分类
特征提取

使用案例

图像分类
ImageNet分类
将图像分类为1,000个ImageNet类别之一。
在ImageNet数据集上表现出色。