V

Vit Base Patch16 224.mae

由 timm 开发
基于视觉Transformer(ViT)的图像特征提取模型,采用自监督掩码自编码器(MAE)方法在ImageNet-1k数据集上预训练
下载量 23.63k
发布时间 : 5/9/2023
模型介绍
内容详情
替代品

模型简介

这是一个基于Vision Transformer架构的图像特征提取模型,主要用于图像分类和特征提取任务。模型通过掩码自编码器(MAE)的自监督学习方法进行预训练,能够有效捕捉图像特征。

模型特点

自监督预训练
采用掩码自编码器(MAE)方法进行自监督预训练,无需大量标注数据
高效特征提取
基于Vision Transformer架构,能够有效提取图像特征
中等规模模型
85.8百万参数规模,在计算效率和性能间取得平衡

模型能力

图像特征提取
图像分类
视觉表示学习

使用案例

计算机视觉
图像分类
可用于对图像进行分类,如识别物体类别
特征提取
可作为其他视觉任务的特征提取器