🚀 视觉变换器(基础大小模型) - 使用MSN预训练
视觉变换器(ViT)是一种基于Transformer架构的模型,本项目的模型使用MSN方法进行预训练。它能学习图像的内在表示,可用于提取对下游任务有用的特征,在低样本和极低样本场景中表现出色。
🚀 快速开始
视觉变换器(ViT)是一种类似BERT的Transformer编码器模型。图像以固定大小的图像块序列形式输入到模型中。MSN提出了一种联合嵌入架构,用于匹配被掩码图像块和未被掩码图像块的原型。通过预训练模型,它可以学习图像的内在表示,这些表示可用于提取对下游任务有用的特征。
基础用法
from transformers import AutoFeatureExtractor, ViTMSNModel
import torch
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = AutoFeatureExtractor.from_pretrained("facebook/vit-msn-base")
model = ViTMSNModel.from_pretrained("facebook/vit-msn-base")
inputs = feature_extractor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state
高级用法
对于图像分类的微调,请使用ViTMSNForImageClassification
类:
from transformers import AutoFeatureExtractor, ViTMSNForImageClassification
import torch
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = AutoFeatureExtractor.from_pretrained("facebook/vit-msn-base")
model = ViTMSNForImageClassification.from_pretrained("facebook/vit-msn-base")
...
✨ 主要特性
- 联合嵌入架构:MSN提出的联合嵌入架构,可匹配被掩码和未被掩码图像块的原型,在低样本和极低样本场景中表现出色。
- 特征提取:通过预训练学习图像的内在表示,可用于提取对下游任务有用的特征。
- 下游任务支持:可用于图像分类等下游任务,特别是在训练集中标记样本较少时。
📚 详细文档
模型描述
视觉变换器(ViT)是一种Transformer编码器模型(类似BERT)。图像以固定大小的图像块序列形式呈现给模型。MSN提出了一种联合嵌入架构,用于匹配被掩码图像块和未被掩码图像块的原型。通过这种设置,该方法在低样本和极低样本情况下取得了出色的性能。
通过预训练模型,它学习图像的内在表示,这些表示可用于提取对下游任务有用的特征:例如,如果您有一个标记图像的数据集,您可以通过在预训练编码器之上放置一个线性层来训练一个标准分类器。
预期用途和限制
您可以将原始模型用于图像分类等下游任务。请参阅模型中心,查找您感兴趣的不同版本的MSN预训练模型。当您的训练集中有少量标记样本时,该模型特别有用。
📄 许可证
本项目采用Apache-2.0许可证。
引用
@article{assran2022masked,
title={Masked Siamese Networks for Label-Efficient Learning},
author={Assran, Mahmoud, and Caron, Mathilde, and Misra, Ishan, and Bojanowski, Piotr, and Bordes, Florian and Vincent, Pascal, and Joulin, Armand, and Rabbat, Michael, and Ballas, Nicolas},
journal={arXiv preprint arXiv:2204.07141},
year={2022}
}
属性 |
详情 |
模型类型 |
视觉变换器(ViT),使用MSN方法预训练 |
训练数据 |
ImageNet-1K |
⚠️ 重要提示
发布MSN的团队没有为该模型编写模型卡片,此模型卡片由Hugging Face团队编写。
💡 使用建议
当训练集中标记样本较少时,该模型能发挥较好的性能,可前往模型中心查找不同版本的MSN预训练模型。