V

Vit Large Patch32 224 In21k

由 google 开发
该视觉Transformer(ViT)模型在ImageNet-21k数据集上预训练,适用于图像分类任务。
下载量 4,943
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

视觉Transformer(ViT)是一种基于Transformer架构的视觉模型,通过监督学习在ImageNet-21k数据集上进行预训练,主要用于图像分类任务。

模型特点

大规模预训练
在ImageNet-21k数据集(1400万张图像,21,843个类别)上进行预训练,学习到丰富的图像表示。
Transformer架构
采用类似BERT的Transformer编码器架构,将图像分割为固定大小的块进行处理。
高分辨率支持
支持224x224像素分辨率的图像输入,并可扩展至更高分辨率(如384x384)以获得更好性能。

模型能力

图像分类
特征提取

使用案例

计算机视觉
图像分类
可用于对图像进行分类,识别图像中的对象或场景。
在ImageNet等基准测试中表现优异。
下游任务特征提取
可作为特征提取器,为其他计算机视觉任务(如目标检测、图像分割)提供基础特征。