V

Vit Base Patch16 224.dino Mlxim

由 mlx-vision 开发
基于Vision Transformer架构的图像分类模型,使用DINO自监督方法在ImageNet-1k数据集上训练而成。
下载量 43
发布时间 : 4/6/2024
模型介绍
内容详情
替代品

模型简介

该模型是一个视觉Transformer模型,专门用于图像分类任务。它采用DINO自监督学习方法训练,仅训练了骨干网络,未训练分类头部。

模型特点

自监督学习
使用DINO方法进行自监督训练,无需大量标注数据
注意力机制可视化
支持生成注意力热图,帮助理解模型关注点
特征提取
可以提取分类头之前的层特征,适用于迁移学习

模型能力

图像分类
特征提取
注意力可视化

使用案例

计算机视觉
图像分类
对输入图像进行分类识别
视觉特征提取
提取图像的高级特征表示,用于下游任务