V

Vit Base Patch16 384 Wi4

由 Imene 开发
基于google/vit-base-patch16-384微调的视觉Transformer模型,适用于图像分类任务
下载量 21
发布时间 : 9/6/2022
模型介绍
内容详情
替代品

模型简介

该模型是基于Vision Transformer (ViT)架构的图像分类模型,经过特定数据集的微调,可用于图像识别和分类任务

模型特点

高分辨率处理
支持384x384像素的高分辨率图像输入
迁移学习
基于预训练的ViT模型进行微调,适用于特定领域的图像分类任务
高效训练
使用混合精度训练(mixed_float16)提高训练效率

模型能力

图像分类
视觉特征提取
迁移学习

使用案例

计算机视觉
通用图像分类
对输入图像进行分类,输出类别概率
在验证集上达到57.46%的准确率