vit-base-patch16-224-wi2开源视觉模型 - 免费部署高效完成图像分类任务

Vit Base Patch16 224 Wi2

由 Imene 开发

基于google/vit-base-patch16-224微调的视觉Transformer模型，适用于图像分类任务

下载量 21

发布时间 : 9/10/2022

模型简介

该模型是基于Vision Transformer (ViT)架构的图像分类模型，通过微调提升了在特定数据集上的表现。

基于ViT架构

采用Vision Transformer架构，使用自注意力机制处理图像

混合精度训练

使用mixed_float16精度进行训练，优化计算效率

AdamW优化器

采用AdamWeightDecay优化器配合多项式学习率衰减策略

图像分类

特征提取

计算机视觉

通用图像分类

对输入图像进行分类预测

在验证集上达到24.91%的准确率

训练损失	训练准确率	训练前 5 准确率	验证损失	验证准确率	验证前 5 准确率	训练轮数
4.4859	0.0195	0.0579	4.2995	0.0368	0.0865	0
4.1729	0.0355	0.0987	4.0916	0.0472	0.1266	1
3.9541	0.0666	0.1641	3.8050	0.0781	0.2035	2
3.5823	0.1247	0.2615	3.4015	0.1429	0.2950	3
3.0156	0.1913	0.3987	3.0598	0.1880	0.3916	4
2.4618	0.3077	0.5572	2.9869	0.2056	0.4129	5
1.8979	0.4541	0.7165	2.9507	0.2298	0.4425	6
1.2075	0.6914	0.8886	3.0106	0.2394	0.4425	7
0.6026	0.9097	0.9810	3.0739	0.2428	0.4413	8
0.3098	0.9821	0.9971	3.0737	0.2491	0.4476	9