V

Vit Base Patch32 384

由 google 开发
Vision Transformer(ViT)是一种基于Transformer架构的图像分类模型,通过在ImageNet-21k和ImageNet数据集上进行预训练和微调,实现了高效的图像识别能力。
下载量 24.92k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

ViT模型将图像分割为固定大小的块,通过Transformer编码器进行特征提取,适用于图像分类任务。模型在ImageNet-21k上预训练,并在ImageNet上微调,支持高分辨率图像处理。

模型特点

基于Transformer的图像处理
将图像分割为固定大小的块,通过Transformer编码器提取特征,突破了传统CNN的限制。
高分辨率微调
在ImageNet上以384x384分辨率微调,提升了模型在高分辨率图像上的分类性能。
大规模预训练
在ImageNet-21k(1400万张图像,21,843个类别)上进行预训练,学习到丰富的图像特征表示。

模型能力

图像分类
特征提取

使用案例

计算机视觉
ImageNet图像分类
将图像分类为1,000个ImageNet类别之一。
在ImageNet数据集上表现出色,具体性能指标参见原论文。