vit-base-patch16-224-in21k-wwwwwi开源视觉模型

Vit Base Patch16 224 In21k Wwwwwi

由 Imene 开发

该模型是基于google/vit-base-patch16-224-in21k在未知数据集上微调的视觉Transformer模型，主要用于图像分类任务。

下载量 21

发布时间 : 9/1/2022

模型简介

这是一个基于Vision Transformer架构的图像分类模型，经过微调后可用于特定领域的图像识别任务。

基于Vision Transformer架构

采用先进的Transformer架构处理图像数据，具有强大的特征提取能力

预训练模型微调

基于google/vit-base-patch16-224-in21k预训练模型进行微调

混合精度训练

使用mixed_float16精度进行训练，平衡计算效率和模型精度

图像分类

特征提取

迁移学习

计算机视觉

通用图像分类

可用于对常见物体和场景进行分类识别

在验证集上达到25.4%的准确率

本模型是 google/vit-base-patch16-224-in21k 在未知数据集上的微调版本。它在评估集上取得了以下结果：

此部分暂未提供具体的快速开始内容，不过你可以基于该模型的微调情况，参考原模型 google/vit-base-patch16-224-in21k 的使用方法来初步使用本模型。

更多信息待补充。

更多信息待补充。

更多信息待补充。

训练期间使用了以下超参数：

优化器：{'inner_optimizer': {'class_name': 'AdamWeightDecay', 'config': {'name': 'AdamWeightDecay', 'learning_rate': {'class_name': 'PolynomialDecay', 'config': {'initial_learning_rate': 3e-05, 'decay_steps': 4920, 'end_learning_rate': 0.0, 'power': 1.0, 'cycle': False, 'name': None}}, 'decay': 0.0, 'beta_1': 0.9, 'beta_2': 0.999, 'epsilon': 1e-08, 'amsgrad': False, 'weight_decay_rate': 0.01}}, 'dynamic': True, 'initial_scale': 32768.0, 'dynamic_growth_steps': 2000}
训练精度：混合浮点16位

训练损失	训练准确率	训练前3准确率	验证损失	验证准确率	验证前3准确率	训练轮数
5.3476	0.0283	0.0716	5.1306	0.0483	0.1240	0
4.9357	0.0914	0.2057	4.7998	0.1158	0.2385	1
4.6155	0.1641	0.3230	4.5616	0.1430	0.2891	2
4.3325	0.2269	0.4188	4.3480	0.1722	0.3391	3
4.0702	0.2915	0.4984	4.1662	0.2042	0.3886	4
3.8262	0.3638	0.5758	4.0416	0.2296	0.4067	5
3.6117	0.4258	0.6415	3.9451	0.2329	0.4234	6
3.4324	0.4855	0.6956	3.8690	0.2499	0.4397	7
3.2991	0.5320	0.7376	3.8351	0.2553	0.4359	8
3.2187	0.5652	0.7611	3.8221	0.2540	0.4409	9