V

Vit Huge Patch14 224.orig In21k

由 timm 开发
基于Vision Transformer (ViT)架构的大规模图像特征提取模型,在ImageNet-21k数据集上预训练
下载量 3,214
发布时间 : 12/22/2022
模型介绍
内容详情
替代品

模型简介

这是一个不含分类头的Vision Transformer模型,主要用于图像特征提取和下游任务微调。模型采用14x14的patch尺寸和224x224的输入分辨率。

模型特点

大规模预训练
在包含21000类的ImageNet-21k数据集上预训练,具有强大的特征提取能力
Transformer架构
采用纯Transformer架构处理图像,无需传统CNN的卷积操作
高分辨率处理
支持224x224像素的输入分辨率,14x14的patch尺寸
灵活应用
可作为特征提取器或用于下游任务微调,支持移除分类头

模型能力

图像特征提取
图像分类
迁移学习
计算机视觉任务

使用案例

计算机视觉
图像分类
用于21000类的大规模图像分类任务
特征提取
提取图像特征用于下游任务如目标检测、图像分割等
迁移学习
在特定领域数据集上微调模型,适应特定任务需求