vit-msn-base-4开源视觉模型 - 少样本场景适用，助力图像分类任务！

首页

Vit Msn Base 4

由 facebook 开发

该视觉Transformer模型采用MSN方法预训练，在少样本场景下表现优异，适用于图像分类等任务

图像分类

Transformers

开源协议:Apache-2.0 #少样本学习 #图像特征提取 #自监督预训练

下载量 62

发布时间 : 9/9/2022

模型简介

基于MSN（Masked Siamese Networks）方法预训练的视觉Transformer模型，通过掩码块与原型匹配学习图像表示，特别适合标注数据有限的下游任务

模型特点

少样本学习优势

采用MSN预训练方法，在标注数据有限的场景下仍能保持优异性能

联合嵌入架构

通过掩码块与未掩码原型的匹配学习图像表示

分块处理

将图像分割为4x4的块序列进行处理，适合处理局部图像特征

模型能力

图像特征提取

图像分类

少样本学习

使用案例

计算机视觉

图像分类

在有限标注数据下实现高精度图像分类

在少样本和极低样本场景下表现优异

特征提取

提取图像特征用于下游任务

🚀 视觉变换器（基础大小模型），使用MSN方法预训练（补丁大小为4）

视觉变换器（ViT）模型使用MSN方法进行了预训练。该模型在Mahmoud Assran、Mathilde Caron、Ishan Misra、Piotr Bojanowski、Florian Bordes、Pascal Vincent、Armand Joulin、Michael Rabbat、Nicolas Ballas等人撰写的论文用于标签高效学习的掩码孪生网络中被首次提出，并在这个仓库中首次发布。

免责声明：发布MSN的团队并未为该模型撰写模型卡片，此模型卡片由Hugging Face团队编写。

🚀 快速开始

本模型是使用MSN方法预训练的视觉变换器（ViT），可用于图像分类等下游任务。若训练集中标注样本较少，该模型将发挥显著优势。你可以在模型中心查找感兴趣的不同版本的MSN预训练模型。

✨ 主要特性

联合嵌入架构：MSN采用联合嵌入架构，使掩码补丁的原型与未掩码补丁的原型相匹配，在少样本和极少样本情况下表现出色。
特征提取：通过预训练，模型学习到图像的内部表示，可用于提取对下游任务有用的特征。
低样本适应性：当训练集中标注样本较少时，该模型能展现出较好的性能。

📚 详细文档

模型描述

视觉变换器（ViT）是一种类似BERT的变压器编码器模型。图像以固定大小的补丁序列形式输入到模型中。

MSN提出了一种联合嵌入架构，用于匹配掩码补丁和未掩码补丁的原型。通过这种设置，该方法在少样本和极少样本情况下都能取得出色的性能。

通过对模型进行预训练，它学习到图像的内部表示，这些表示可用于提取对下游任务有用的特征。例如，如果你有一个标注图像的数据集，可以在预训练编码器的基础上添加一个线性层，训练一个标准的分类器。

预期用途与限制

你可以将原始模型用于图像分类等下游任务。请查看模型中心，查找你感兴趣的不同版本的MSN预训练模型。当训练集中标注样本较少时，该模型特别有用。

💻 使用示例

基础用法

以下是如何使用此骨干编码器的示例代码：

from transformers import AutoFeatureExtractor, ViTMSNModel
import torch
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = AutoFeatureExtractor.from_pretrained("facebook/vit-msn-base-4")
model = ViTMSNModel.from_pretrained("facebook/vit-msn-base-4")
inputs = feature_extractor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state

高级用法

若要对图像分类进行微调，请使用ViTMSNForImageClassification类：

from transformers import AutoFeatureExtractor, ViTMSNForImageClassification
import torch
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = AutoFeatureExtractor.from_pretrained("facebook/vit-msn-base-4")
model = ViTMSNForImageClassification.from_pretrained("facebook/vit-msn-base-4")

...

📄 许可证

本项目采用Apache-2.0许可证。

📚 引用

@article{assran2022masked,
  title={Masked Siamese Networks for Label-Efficient Learning}, 
  author={Assran, Mahmoud, and Caron, Mathilde, and Misra, Ishan, and Bojanowski, Piotr, and Bordes, Florian and Vincent, Pascal, and Joulin, Armand, and Rabbat, Michael, and Ballas, Nicolas},
  journal={arXiv preprint arXiv:2204.07141},
  year={2022}
}