V

Vit Huge Patch14 224 In21k

由 google 开发
基于ImageNet-21k预训练的视觉Transformer模型,采用超大尺寸架构,适用于图像分类等视觉任务。
下载量 47.78k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该视觉Transformer(ViT)模型在ImageNet-21k数据集上预训练,通过将图像分割为固定大小的块序列进行处理,适用于提取图像特征用于下游任务。

模型特点

大规模预训练
在ImageNet-21k(1400万张图像,21,843个类别)上进行预训练,学习到丰富的图像特征表示。
Transformer架构
采用类似BERT的Transformer编码器架构处理图像块序列,突破传统CNN的限制。
高分辨率处理
支持224x224像素分辨率输入,通过16x16的块分割方式处理图像。

模型能力

图像特征提取
图像分类

使用案例

计算机视觉
图像分类
可用于对图像进行分类,识别图像中的主要对象或场景。
在ImageNet等基准测试中表现优异(具体数值未提供)。
特征提取
可作为特征提取器用于下游视觉任务,如目标检测、图像分割等。