V

Vit Large Patch32 224.orig In21k

由 timm 开发
基于Vision Transformer (ViT)架构的图像分类模型,在ImageNet-21k数据集上预训练,适用于特征提取和微调场景。
下载量 771
发布时间 : 12/22/2022
模型介绍
内容详情
替代品

模型简介

该模型是一个大型Vision Transformer (ViT)模型,由Google Research团队开发,主要用于图像分类和特征提取任务。它不包含分类头,适合作为骨干网络进行微调或特征提取。

模型特点

大规模预训练
在ImageNet-21k数据集上进行预训练,具有强大的特征提取能力
Transformer架构
采用纯Transformer架构处理图像,不依赖传统CNN结构
高兼容性
已从JAX框架移植到PyTorch平台,便于在PyTorch生态中使用
灵活应用
可作为特征提取器或微调基础模型,支持移除分类头

模型能力

图像特征提取
图像分类
迁移学习
计算机视觉任务

使用案例

图像分类
通用图像分类
对各类图像进行分类识别
在ImageNet-21k数据集上预训练,具有广泛的类别识别能力
特征提取
下游任务特征提取
为其他计算机视觉任务提供高质量图像特征
可生成1024维特征向量,适用于各种下游任务