V

Vit Large Patch16 224

由 google 开发
基于Transformer架构的大规模图像分类模型,在ImageNet-21k和ImageNet-1k数据集上预训练和微调
下载量 188.47k
发布时间 : 3/2/2022

模型简介

视觉Transformer(ViT)是一种基于Transformer编码器的图像分类模型,通过将图像分割为固定大小的块进行处理。该模型在ImageNet-21k上预训练,并在ImageNet-1k上微调,适用于图像分类任务。

模型特点

基于Transformer的视觉处理
将图像分割为16x16的块序列,采用类似BERT的Transformer架构处理
大规模预训练
在包含1400万张图像的ImageNet-21k数据集上预训练
高分辨率支持
支持224x224像素分辨率输入,更高分辨率(384x384)可获得更好效果

模型能力

图像分类
视觉特征提取

使用案例

计算机视觉
图像分类
将图像分类为1000个ImageNet类别
在ImageNet基准测试中表现优异
特征提取
提取图像特征用于下游任务
AIbase
智启未来,您的人工智能解决方案智库
简体中文