V

Vit Large Patch16 224.orig In21k

由 timm 开发
基于Vision Transformer(ViT)的图像分类模型,由Google Research在JAX框架下使用ImageNet-21k预训练,后移植到PyTorch。适用于特征提取和微调场景。
下载量 584
发布时间 : 11/17/2023
模型介绍
内容详情
替代品

模型简介

这是一个大型Vision Transformer模型,专门用于图像分类和特征提取。模型在ImageNet-21k数据集上进行了预训练,不包含分类头,适合作为骨干网络用于下游任务的微调。

模型特点

大规模预训练
在ImageNet-21k大规模数据集上预训练,具有强大的特征提取能力
纯Transformer架构
完全基于Transformer架构,不使用卷积操作,适合处理全局图像信息
灵活的特征提取
可以输出不同层次的特征表示,包括池化特征和非池化序列特征
高效计算
相对较大的模型规模下仍保持合理的计算量(59.7 GMACs)

模型能力

图像特征提取
图像分类
迁移学习
计算机视觉任务

使用案例

计算机视觉
图像分类
作为骨干网络用于图像分类任务,可通过微调适应特定分类需求
特征提取
提取图像的高级特征表示,用于下游任务如目标检测、图像分割等
迁移学习
利用预训练权重作为起点,在小规模数据集上进行微调