V

Vit Base Patch16 224 In21k

由 google 开发
基于ImageNet-21k数据集预训练的视觉Transformer模型,用于图像分类任务。
下载量 2.2M
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该视觉Transformer(ViT)模型基于ImageNet-21k数据集以224x224分辨率进行预训练,采用类似BERT的Transformer编码器架构,适用于图像分类等视觉任务。

模型特点

基于Transformer的视觉模型
将Transformer架构成功应用于计算机视觉任务,突破了传统CNN的限制。
大规模预训练
在包含1400万张图像的ImageNet-21k数据集上进行预训练,学习到丰富的视觉特征表示。
图像分块处理
将图像分割为16x16的块进行处理,有效降低了计算复杂度。

模型能力

图像特征提取
图像分类
视觉表示学习

使用案例

计算机视觉
图像分类
可用于对图像进行分类,识别图像中的主要对象或场景。
下游任务特征提取
可作为特征提取器,为其他视觉任务(如目标检测、图像分割)提供基础特征。