V

Vit Base Patch16 224

由 google 开发
基于ImageNet-21k预训练和ImageNet微调的视觉变换器模型,用于图像分类任务
下载量 4.8M
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

视觉变换器(ViT)是一种类似BERT的变换器编码器模型,通过将图像分割为固定大小的补丁序列进行处理,适用于图像分类任务。

模型特点

基于变换器的视觉模型
将图像处理为补丁序列,利用变换器架构进行高效特征提取
大规模预训练
在ImageNet-21k(1400万图像,21k类别)上预训练,具有强大的特征学习能力
高分辨率处理
支持224x224像素分辨率输入,能够捕捉细粒度图像特征

模型能力

图像分类
特征提取
视觉表示学习

使用案例

通用图像识别
物体分类
将图像分类为1000个ImageNet类别之一
在ImageNet验证集上达到高准确率
特征提取
提取图像特征用于下游任务
可作为其他视觉任务的预训练模型