vit-base-patch16-224-in21k-wwwwii开源视觉分类模型

Vit Base Patch16 224 In21k Wwwwii

由 Imene 开发

基于Google Vision Transformer (ViT)基础模型微调的视觉分类模型，适用于图像分类任务

下载量 21

发布时间 : 9/2/2022

模型简介

该模型是基于google/vit-base-patch16-224-in21k预训练模型在未知数据集上微调的版本，主要用于图像分类任务。

基于ViT架构

采用Vision Transformer架构，使用16x16图像块处理输入

迁移学习

基于ImageNet-21k预训练模型微调，具有较好的特征提取能力

高效分类

在验证集上达到62.67%的准确率和83.49%的Top-3准确率

图像分类

视觉特征提取

计算机视觉

通用图像分类

对输入图像进行分类识别

验证准确率62.67%

训练损失	训练准确率	训练前3准确率	验证损失	验证准确率	验证前3准确率	训练轮数
3.6793	0.125	0.2805	3.4078	0.2151	0.4756	0
3.1763	0.3448	0.6265	3.0167	0.4209	0.6640	1
2.7546	0.5419	0.7852	2.6634	0.5326	0.7651	2
2.3537	0.6855	0.8843	2.3971	0.5547	0.7860	3
1.9989	0.7814	0.9279	2.2236	0.5837	0.7907	4
1.6670	0.875	0.9698	2.0757	0.5977	0.7907	5
1.3815	0.9352	0.9890	1.8921	0.6198	0.8174	6
1.1407	0.9651	0.9956	1.7976	0.6244	0.8174	7
0.9451	0.9866	0.9983	1.7227	0.6349	0.8267	8
0.8024	0.9939	0.9997	1.6739	0.6267	0.8349	9