V

Vit Base Patch16 384

由 google 开发
Vision Transformer(ViT)是一种基于Transformer架构的图像分类模型,先在ImageNet-21k上预训练,后在ImageNet上微调。
下载量 30.30k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型通过将图像分割为固定大小的块并应用Transformer编码器进行图像分类,支持1,000个ImageNet类别。

模型特点

基于Transformer的图像处理
将图像分割为16x16的块并应用Transformer编码器,突破了传统CNN在图像处理中的局限。
大规模预训练
先在ImageNet-21k(1400万图像)上预训练,后在ImageNet(100万图像)上微调,学习到丰富的图像特征表示。
高分辨率微调
微调时使用384x384分辨率,相比预训练的224x224分辨率能捕捉更精细的图像特征。

模型能力

图像分类
特征提取

使用案例

计算机视觉
图像分类
将输入图像分类为1,000个ImageNet类别之一。
在ImageNet数据集上表现出色。