vit-base-patch16-384-wi4开源图像分类模型 - 免费用于精准图像分类任务

Vit Base Patch16 384 Wi4

由 Imene 开发

基于google/vit-base-patch16-384微调的视觉Transformer模型，适用于图像分类任务

下载量 21

发布时间 : 9/6/2022

模型简介

该模型是基于Vision Transformer (ViT)架构的图像分类模型，经过特定数据集的微调，可用于图像识别和分类任务

高分辨率处理

支持384x384像素的高分辨率图像输入

迁移学习

基于预训练的ViT模型进行微调，适用于特定领域的图像分类任务

高效训练

使用混合精度训练(mixed_float16)提高训练效率

图像分类

视觉特征提取

迁移学习

计算机视觉

通用图像分类

对输入图像进行分类，输出类别概率

在验证集上达到57.46%的准确率

训练损失	训练准确率	训练前3准确率	验证损失	验证准确率	验证前3准确率	训练轮数
3.7777	0.0845	0.1855	3.3754	0.1543	0.3014	0
2.7253	0.3277	0.5560	2.4975	0.3452	0.5892	1
2.0079	0.5236	0.7589	2.1228	0.4234	0.6882	2
1.5256	0.6663	0.8549	1.9117	0.4734	0.7445	3
1.1602	0.7712	0.9270	1.8059	0.5162	0.7560	4
0.8509	0.8659	0.9614	1.6534	0.5516	0.7758	5
0.5955	0.9353	0.9836	1.6139	0.5610	0.7935	6
0.4229	0.9687	0.9940	1.5655	0.5631	0.7925	7
0.3045	0.9859	0.9979	1.5290	0.5714	0.7987	8
0.2221	0.9958	0.9990	1.5061	0.5954	0.8008	9
0.1742	0.9982	0.9997	1.5010	0.5746	0.8040	10