vit-msn-large开源视觉模型 - 在少样本场景下也能有优异表现

首页

Vit Msn Large

由 facebook 开发

采用MSN方法预训练的视觉Transformer模型，在少样本场景下表现优异

图像分类

Transformers

开源协议:Apache-2.0 #少样本学习 #图像表征学习 #自监督预训练

下载量 48

发布时间 : 9/9/2022

模型简介

该视觉Transformer模型通过Masked Siamese Networks方法预训练，特别适合标注数据有限的图像分类任务，能够学习图像的内在表征并迁移到下游任务

模型特点

少样本学习能力

通过MSN预训练方法，在标注数据有限的场景下仍能保持优异性能

联合嵌入架构

采用掩码图块与原型图块匹配的独特训练方式

迁移学习友好

预训练表征可轻松迁移到各种下游视觉任务

模型能力

图像特征提取

少样本图像分类

视觉表征学习

使用案例

计算机视觉

少样本图像分类

在标注样本有限的情况下实现图像分类

在少样本和极少量样本场景下表现卓越

视觉特征提取

作为基础编码器提取图像特征

🚀 视觉变换器（大型模型）：基于MSN方法的预训练模型

视觉变换器（ViT）是一种基于Transformer架构的模型，本项目的模型采用MSN方法进行预训练。它能够学习图像的内在表示，为下游任务（如图像分类）提取有用的特征，尤其在训练集中标记样本较少的情况下表现出色。

🚀 快速开始

本模型可用于图像分类等下游任务。你可以在模型中心查找不同版本的MSN预训练模型。

✨ 主要特性

联合嵌入架构：MSN使用联合嵌入架构，将掩码补丁的原型与未掩码补丁的原型进行匹配，在少样本和极少样本的情况下表现出色。
特征提取能力：通过预训练，模型学习到图像的内在表示，可用于提取对下游任务有用的特征。

📚 详细文档

模型描述

视觉变换器（ViT）是一种类似BERT的Transformer编码器模型。图像被分割成固定大小的补丁序列输入到模型中。

MSN提出了一种联合嵌入架构，用于匹配掩码补丁和未掩码补丁的原型。通过这种设置，该方法在少样本和极少样本的情况下取得了优异的性能。

通过预训练，模型学习到图像的内在表示，这些表示可用于提取对下游任务有用的特征。例如，如果你有一个标记图像的数据集，可以在预训练编码器的基础上添加一个线性层，训练一个标准的分类器。

预期用途和限制

你可以将原始模型用于图像分类等下游任务。可以在模型中心查找感兴趣的不同版本的MSN预训练模型。该模型在训练集中标记样本较少的情况下特别有用。

💻 使用示例

基础用法

以下是如何使用这个骨干编码器的示例：

from transformers import AutoFeatureExtractor, ViTMSNModel
import torch
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = AutoFeatureExtractor.from_pretrained("facebook/vit-msn-large")
model = ViTMSNModel.from_pretrained("facebook/vit-msn-large")
inputs = feature_extractor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state

高级用法

在图像分类任务上进行微调时，可以使用 ViTMSNForImageClassification 类：

from transformers import AutoFeatureExtractor, ViTMSNForImageClassification
import torch
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = AutoFeatureExtractor.from_pretrained("facebook/vit-msn-large")
model = ViTMSNForImageClassification.from_pretrained("facebook/vit-msn-large")

...

引用

@article{assran2022masked,
  title={Masked Siamese Networks for Label-Efficient Learning}, 
  author={Assran, Mahmoud, and Caron, Mathilde, and Misra, Ishan, and Bojanowski, Piotr, and Bordes, Florian and Vincent, Pascal, and Joulin, Armand, and Rabbat, Michael, and Ballas, Nicolas},
  journal={arXiv preprint arXiv:2204.07141},
  year={2022}
}