V

Vit Base Patch16 224.orig In21k

由 timm 开发
基于Vision Transformer的图像分类模型,在ImageNet-21k上预训练,适用于特征提取和微调
下载量 23.07k
发布时间 : 11/16/2023
模型介绍
内容详情
替代品

模型简介

这是一个基于Vision Transformer架构的图像分类模型,由Google Research团队开发并在ImageNet-21k数据集上预训练。模型不包含分类头,适合作为特征提取骨干网络或进行下游任务微调。

模型特点

大规模预训练
在ImageNet-21k大规模数据集上预训练,具有强大的特征提取能力
Transformer架构
采用纯Transformer架构处理图像,将图像分割为16x16的patch进行处理
灵活应用
可作为特征提取骨干网络或进行下游任务微调,支持移除分类头

模型能力

图像特征提取
图像分类
迁移学习

使用案例

计算机视觉
图像分类
用于图像分类任务,可微调模型以适应特定分类需求
特征提取
作为骨干网络提取图像特征,用于下游任务如目标检测、图像分割等