V

Vit Base Patch32 224 In21k

由 google 开发
该视觉变换器(ViT)模型在ImageNet-21k数据集上以224x224分辨率进行了预训练,适用于图像分类任务。
下载量 35.10k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

视觉变换器(ViT)是一种类似BERT的变换器编码器模型,通过监督方式在大量图像上进行预训练,可用于提取图像特征并应用于下游任务。

模型特点

基于变换器的视觉模型
采用类似BERT的变换器编码器架构处理图像,突破了传统CNN的限制。
大规模预训练
在ImageNet-21k数据集(1400万张图像,21,843个类别)上进行预训练,学习到丰富的图像特征表示。
灵活的下游应用
可提取预训练特征用于各种下游视觉任务,如图像分类、目标检测等。

模型能力

图像特征提取
图像分类
视觉表示学习

使用案例

计算机视觉
图像分类
在预训练模型基础上添加分类头,可用于各种图像分类任务。
在ImageNet等基准数据集上表现出色
视觉特征提取
提取图像的高级特征表示,用于其他视觉任务如目标检测、图像分割等。