webssl - mae700m - full2b - 224开源视觉模型 - 无需语言监督处理图像应用广泛

首页

Webssl Mae700m Full2b 224

由 facebook 开发

这是一个7亿参数的视觉Transformer模型，采用掩码自编码器自监督学习方法在20亿网络图像上训练，无需语言监督。

图像分类

Transformers

#无监督视觉学习 #7亿参数大模型 #图表理解优化

下载量 15

发布时间 : 4/25/2025

模型简介

Web-SSL MAE ViT-H是一个基于视觉Transformer架构的大规模视觉表征学习模型，通过自监督学习在大量网络图像数据上进行训练，适用于各种视觉任务。

模型特点

大规模自监督学习

基于20亿MetaCLIP网络数据进行训练，无需语言监督

高性能视觉表征

在各种视觉任务中表现优异，尤其在OCR和图表理解方面突出

纯视觉学习

证明纯视觉学习可以在规模适当时匹配或超越语言监督模型的性能

模型能力

图像特征提取

视觉表征学习

OCR识别

图表理解

使用案例

文档处理

OCR文本识别

从图像中提取文本内容

在OCR任务中表现优异

数据可视化

图表理解

分析和理解图表内容

在图表理解任务中表现突出

通用视觉任务

图像分类

对图像内容进行分类

在传统视觉基准测试中保持竞争力

🚀 Web-SSL MAE ViT-H (700M)：2B MetaCLIP数据，224分辨率

本项目是一个具有7亿参数的视觉变换器（ViT-H），它采用掩码自编码器（MAE）自监督学习方法，在无语言监督的网络规模图像数据上进行训练。该模型在论文"Scaling Language-Free Visual Representation Learning"（Fan等人，2025年）中被提出。

🚀 快速开始

Web-SSL MAE ViT-H是一个拥有7亿参数的视觉变换器模型，它使用掩码自编码器自监督学习方法，在20亿张无语言监督的网络图像上进行训练。该模型表明，适当扩展的纯视觉学习在各种视觉任务中可以达到或超过像CLIP这样的语言监督模型的性能。Web-MAE在OCR和图表理解任务上表现尤为出色，同时在传统视觉基准测试和多模态任务中也保持着有竞争力的性能。

✨ 主要特性

基于ViT-H（Huge）架构，拥有7亿参数。
处理分辨率为224×224像素的图像。
使用自监督Web-MAE方法，在来自MetaCLIP网络数据的20亿个图像样本上进行训练。

📦 安装指南

文档未提供安装步骤，可参考transformers库的官方安装指南进行安装。

💻 使用示例

基础用法

from transformers import AutoImageProcessor, ViTModel
import torch
from PIL import Image

# Adjust the size, crop_size, etc. fields to your liking
processor = AutoImageProcessor.from_pretrained('facebook/webssl-mae700m-full2b-224')
model = ViTModel.from_pretrained('facebook/webssl-mae700m-full2b-224').cuda().eval()

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt").to('cuda')
with torch.no_grad():
    outputs = model(**inputs)

# Extract features from the encoder
encoder_hidden_states = outputs.last_hidden_state

📚 详细文档

模型详情

属性	详情
模型类型	ViT-H（Huge）
参数数量	7亿
分辨率	224×224像素
训练方式	在来自MetaCLIP网络数据的20亿个图像样本上进行自监督Web-MAE训练

模型描述

Web-SSL MAE ViT-H在无语言监督的情况下，利用掩码自编码器自监督学习在20亿张网络图像上进行训练。该模型在多种视觉任务中表现出色，尤其在OCR和图表理解任务上优势明显。

WebSSL模型概述

📄 许可证

本项目采用CC BY-NC 4.0许可证。

📚 引用

如果您使用了该模型，请引用以下论文：

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}