V

Vit Msn Base

由 facebook 开发
采用MSN方法预训练的视觉Transformer模型,适用于少样本图像分类任务
下载量 694
发布时间 : 9/9/2022

模型简介

该模型通过Masked Siamese Networks方法预训练,学习图像的内在表示,特别适合标签样本有限的下游任务

模型特点

少样本学习
通过MSN预训练方法,在标签样本有限的情况下仍能取得良好表现
联合嵌入架构
将掩码图像块的原型与未掩码图像块的原型进行匹配,学习更鲁棒的表示
基于Transformer
采用视觉Transformer架构,以图像块序列形式处理输入

模型能力

图像特征提取
少样本图像分类

使用案例

计算机视觉
图像分类
在标签数据有限的情况下进行图像分类任务
在少样本和极少量样本场景下表现优异
特征提取
作为骨干网络提取图像特征用于下游任务
AIbase
智启未来,您的人工智能解决方案智库
简体中文