vit-base-patch16-224-in21k-iiii开源图像分类模型

Vit Base Patch16 224 In21k Iiii

由 Imene 开发

该模型是基于google/vit-base-patch16-224-in21k微调的视觉Transformer模型，主要用于图像分类任务。

下载量 21

发布时间 : 9/2/2022

模型简介

这是一个基于Vision Transformer架构的图像分类模型，经过特定数据集的微调，可用于图像识别和分类任务。

基于ViT架构

采用Vision Transformer架构，利用自注意力机制处理图像数据

迁移学习

基于预训练的vit-base-patch16-224-in21k模型进行微调

混合精度训练

使用mixed_float16精度进行训练，提高训练效率

图像分类

特征提取

计算机视觉

通用图像分类

对输入图像进行分类识别

在验证集上达到39.07%的准确率

训练损失	训练准确率	训练前3准确率	验证损失	验证准确率	验证前3准确率	轮数
3.8068	0.0843	0.2108	3.6116	0.1721	0.3593	0
3.4497	0.2735	0.4840	3.3654	0.2779	0.4953	1
3.1913	0.3991	0.6314	3.1839	0.3512	0.5977	2
3.0017	0.4878	0.7311	3.0867	0.3872	0.6233	3
2.8947	0.5439	0.7916	3.0482	0.3907	0.6302	4