V

Vit Base Patch16 224 Wi2

由 Imene 开发
基于google/vit-base-patch16-224微调的视觉Transformer模型,适用于图像分类任务
下载量 21
发布时间 : 9/10/2022
模型介绍
内容详情
替代品

模型简介

该模型是基于Vision Transformer (ViT)架构的图像分类模型,通过微调提升了在特定数据集上的表现。

模型特点

基于ViT架构
采用Vision Transformer架构,使用自注意力机制处理图像
混合精度训练
使用mixed_float16精度进行训练,优化计算效率
AdamW优化器
采用AdamWeightDecay优化器配合多项式学习率衰减策略

模型能力

图像分类
特征提取

使用案例

计算机视觉
通用图像分类
对输入图像进行分类预测
在验证集上达到24.91%的准确率