E

Eva02 Base Patch14 224.mim In22k

由 timm 开发
EVA02基础版视觉表示模型,通过掩码图像建模在ImageNet-22k上预训练,适用于图像分类和特征提取任务。
下载量 2,834
发布时间 : 3/31/2023
模型介绍
内容详情
替代品

模型简介

该模型采用改进的视觉Transformer架构,包含均值池化、SwiGLU激活函数和旋转位置嵌入等技术,专为高效图像特征提取设计。

模型特点

改进的Transformer架构
采用旋转位置嵌入(ROPE)和SwiGLU激活函数,增强位置感知能力和非线性表达能力
高效预训练策略
使用EVA-CLIP作为MIM(掩码图像建模)教师模型进行知识蒸馏
多尺度特征支持
通过forward_features方法可获取非池化的多层级视觉特征(257×768张量)

模型能力

图像特征提取
图像分类
视觉表示学习

使用案例

计算机视觉
图像分类系统
用于构建高精度图像分类器,支持224×224分辨率输入
在ImageNet-1k上达到88.23% Top1准确率
特征提取服务
作为视觉特征提取器用于下游任务(如目标检测、图像检索)
输出768维特征向量