webssl - mae1b - full2b - 224开源视觉模型 - 免语言监督学习视觉表征，用于图像分析

首页

Webssl Mae1b Full2b 224

由 facebook 开发

10亿参数的视觉Transformer模型，通过掩码自编码器自监督学习方法在20亿网络图像上训练，无需语言监督即可学习视觉表征。

图像分类

Transformers

#10亿参数视觉Transformer #无语言监督学习 #20亿图像训练

下载量 36

发布时间 : 4/25/2025

模型简介

该模型证明纯视觉学习方法可以在各类视觉任务中达到或超越语言监督模型的性能，尤其在OCR和图表理解任务中表现突出。

模型特点

大规模自监督学习

基于20亿网络图像进行训练，全程无需语言监督

高效视觉表征

在OCR和图表理解等任务中表现优于语言监督模型

纯视觉架构

采用ViT架构，专注于视觉信息处理

模型能力

图像特征提取

视觉表征学习

OCR任务处理

图表理解

使用案例

文档处理

光学字符识别(OCR)

从图像中提取文本信息

优于语言监督模型的识别精度

数据可视化

图表理解

解析图表中的数据和关系

表现出色的理解能力

🚀 Web-SSL MAE ViT-1B: 2B MetaCLIP数据，224分辨率

Web-SSL MAE ViT-1B是一个具有10亿参数的视觉Transformer（ViT）模型，它使用掩码自编码器（MAE）自监督学习方法，在无语言监督的网络规模图像数据上进行训练。该模型在视觉任务中表现出色，相关研究发表于论文"Scaling Language-Free Visual Representation Learning" (Fan等人, 2025)。

✨ 主要特性

采用无语言监督的自监督学习方式，在大规模网络图像数据上训练，展现了纯视觉学习的强大能力。
在OCR和图表理解任务中表现尤为突出，同时在传统视觉基准测试和多模态任务中也具有竞争力。

📦 安装指南

文档未提及具体安装步骤，可参考transformers库的官方安装说明进行安装。

💻 使用示例

基础用法

from transformers import AutoImageProcessor, ViTModel
import torch
from PIL import Image

# Adjust the size, crop_size, etc. fields to your liking
processor = AutoImageProcessor.from_pretrained('facebook/webssl-mae1b-full2b-224')
model = ViTModel.from_pretrained('facebook/webssl-mae1b-full2b-224').cuda().eval()

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt").to('cuda')
with torch.no_grad():
    outputs = model(**inputs)

# Extract features from the encoder
encoder_hidden_states = outputs.last_hidden_state

📚 详细文档

模型详情

属性	详情
架构	ViT（宽度1536，深度40，24头）
参数数量	10亿
分辨率	224×224像素
训练方式	在来自MetaCLIP网络数据的20亿个图像样本上进行自监督Web-MAE训练

模型描述

Web-SSL MAE 1B是一个具有10亿参数的视觉Transformer模型，它使用掩码自编码器自监督学习方法，在20亿张无语言监督的网络图像上进行训练。该模型表明，适当扩展的纯视觉学习在各种视觉任务中可以达到或超过像CLIP这样的语言监督模型的性能。Web-MAE在OCR和图表理解任务中表现尤为突出，同时在传统视觉基准测试和多模态任务中也保持着有竞争力的性能。

WebSSL模型概述

📄 许可证

本项目采用CC BY-NC 4.0许可证。

📚 引用

如果您使用了该模型，请引用以下论文：

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}