V

Vit Large Patch16 384

由 google 开发
视觉变换器(ViT)是一种基于变换器架构的图像分类模型,先在ImageNet-21k上预训练,后在ImageNet上微调。
下载量 161.29k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型使用变换器编码器结构,将图像分割为固定大小的块进行处理,主要用于图像分类任务。

模型特点

基于变换器的视觉模型
将自然语言处理中成功的变换器架构应用于计算机视觉任务
大规模预训练
先在ImageNet-21k(1400万图像)上预训练,后在ImageNet(100万图像)上微调
高分辨率处理
微调阶段使用384x384分辨率,比预训练的224x224分辨率更高

模型能力

图像分类
特征提取

使用案例

计算机视觉
图像分类
将图像分类为1000个ImageNet类别之一
在ImageNet基准测试上表现优异