V

Vit Base Patch32 224.orig In21k

由 timm 开发
基于Vision Transformer (ViT)的图像分类模型,在ImageNet-21k上预训练,适用于特征提取和微调场景。
下载量 438
发布时间 : 11/17/2023
模型介绍
内容详情
替代品

模型简介

该模型是一个基于Vision Transformer架构的图像分类模型,由论文作者在ImageNet-21k数据集上使用JAX预训练,后移植到PyTorch。模型不包含分类头,适合用于特征提取和下游任务的微调。

模型特点

基于Transformer架构
采用Vision Transformer架构,将图像分割为32x32的patch进行处理,适用于大规模图像识别任务。
预训练权重
在ImageNet-21k大规模数据集上预训练,具有强大的特征提取能力。
灵活的特征提取
模型不包含分类头,可以直接用于特征提取或下游任务的微调。

模型能力

图像特征提取
图像分类
迁移学习

使用案例

计算机视觉
图像分类
使用预训练模型进行图像分类任务,或在其基础上微调特定领域的分类器。
特征提取
提取图像的高级特征表示,用于下游任务如目标检测、图像检索等。