vit-base-patch16-224-in21k-Wr开源视觉模型 - 免费部署助力图像分类任务

Vit Base Patch16 224 In21k Wr

由 Imene 开发

该模型是基于google/vit-base-patch16-224-in21k在未知数据集上微调的视觉Transformer模型，主要用于图像分类任务。

下载量 21

发布时间 : 9/7/2022

模型简介

这是一个基于Vision Transformer架构的图像分类模型，在未知数据集上进行了微调，适用于通用的图像识别任务。

基于预训练模型微调

基于google/vit-base-patch16-224-in21k预训练模型进行微调，继承了强大的图像特征提取能力

混合精度训练

使用mixed_float16精度进行训练，兼顾训练速度和模型精度

优化器配置

采用AdamWeightDecay优化器配合PolynomialDecay学习率调度，有助于稳定训练过程

图像分类

特征提取

计算机视觉

通用图像分类

可用于对常见物体和场景进行分类识别

验证准确率57.7%，前三准确率80.35%

训练损失	训练准确率	训练前3准确率	验证损失	验证准确率	验证前3准确率	训练轮数
3.8300	0.0583	0.1381	3.6801	0.0951	0.2203	0
3.2915	0.2418	0.4557	3.0277	0.3004	0.5507	1
2.6535	0.4438	0.7106	2.5932	0.3780	0.6546	2
2.0541	0.6308	0.8575	2.2998	0.4556	0.6871	3
1.4622	0.7924	0.9496	2.0054	0.5056	0.7234	4
0.9098	0.9201	0.9887	1.8079	0.5695	0.7785	5
0.5220	0.9821	0.9969	1.6444	0.5845	0.7922	6
0.3104	0.9956	0.9981	1.6041	0.5770	0.8035	7