V

Vit Huge Patch14 224.mae

由 timm 开发
基于视觉Transformer(ViT)的大规模图像特征提取模型,采用自监督掩码自编码器(MAE)方法在ImageNet-1k数据集上预训练
下载量 104
发布时间 : 5/9/2023
模型介绍
内容详情
替代品

模型简介

这是一个基于视觉Transformer架构的图像特征提取模型,主要用于图像分类和特征提取任务。模型采用掩码自编码器(MAE)的自监督学习方法进行预训练,能够有效捕捉图像的高级特征表示。

模型特点

大规模视觉Transformer
采用ViT-Huge架构,包含6.3亿参数,能够处理复杂的视觉特征
自监督预训练
使用掩码自编码器(MAE)方法进行预训练,无需大量标注数据
高分辨率处理
支持224×224像素的图像输入,能够捕捉更精细的视觉特征

模型能力

图像特征提取
图像分类
视觉表示学习

使用案例

计算机视觉
图像分类
可用于对图像内容进行分类,如识别物体、场景等
特征提取
可作为特征提取器为下游视觉任务提供高质量的图像表示