webssl-dino2b-heavy2b-224开源视觉模型 - 免费部署，优化图表与文本理解能力

首页

Webssl Dino2b Heavy2b 224

由 facebook 开发

20亿参数的自监督视觉Transformer模型，基于严格筛选的网络图像数据训练，特别优化图表和文本理解能力

图像分类

Transformers

#20亿参数视觉模型 #自监督学习 #图表文本理解

下载量 24

发布时间 : 4/25/2025

模型简介

这是一个通过自监督学习在严格筛选的网络规模图像数据上训练的视觉Transformer模型，特别针对图表、表格和可读文本文档进行了优化，在OCR和图表理解任务中表现优异

模型特点

严格筛选的训练数据

使用仅占原始MetaCLIP数据集1.3%的高质量图像子集训练，特别包含图表、表格和可读文本文档

自监督学习

采用DINOv2自监督学习方法，无需语言监督即可学习强大的视觉表征

大规模参数

20亿参数的视觉Transformer架构，提供强大的特征提取能力

优化OCR能力

针对文本和图表理解特别优化，在相关任务中表现突出

模型能力

图像特征提取

视觉表征学习

图表理解

文本检测

表格识别

使用案例

文档处理

表格识别

从图像中提取表格结构和内容

高精度的表格检测和识别

OCR增强

提高图像中文本的识别准确率

在复杂背景下的文本识别性能提升

视觉理解

图表分析

理解图像中的各种图表类型和数据

准确的图表分类和数据提取

🚀 Web-SSL DINO ViT-2B：重度过滤的20亿参数MetaCLIP数据，224分辨率

本项目是一个拥有20亿参数的视觉变换器（ViT）模型，它采用DINOv2自监督学习方法，在经过重度过滤的无语言监督的网络规模图像数据上进行训练。该模型在论文"Scaling Language-Free Visual Representation Learning"（Fan等人，2025年）中被首次提出，能够在多种视觉任务中展现出优秀的性能。

🚀 快速开始

Web-SSL DINO 2B是一个拥有20亿参数的视觉变换器模型，它在经过重度过滤的无语言监督的网络图像上进行自监督学习训练。“heavy2b” 表示该模型是在明确包含图表、表格和带有可读文本的文档的图像子集上进行训练的，这些图像仅占原始MetaCLIP数据集的1.3%。这种有针对性的过滤显著提高了OCR和图表理解能力，同时在其他视觉任务上也保持了强大的性能。该模型表明，适当扩展的纯视觉学习在各种视觉任务中可以达到或超过像CLIP这样的语言监督模型的性能。

✨ 主要特性

高性能架构：采用ViT架构（宽度2688，深度24，21个头），拥有20亿参数，能够处理复杂的视觉任务。
特定分辨率：模型的输入分辨率为224×224像素，适用于多种图像场景。
自监督学习：通过自监督的Web-DINO方法在经过重度过滤的MetaCLIP数据上进行训练，无需语言监督。
针对性过滤：在特定的图像子集上训练，显著提高了OCR和图表理解能力。

📦 安装指南

文档中未提及安装步骤，若有需求，请参考相关库的官方文档进行安装。

💻 使用示例

基础用法

from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image

processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino2b-heavy2b-224')
model = Dinov2Model.from_pretrained('facebook/webssl-dino2b-heavy2b-224')

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

cls_features = outputs.last_hidden_state[:, 0]  # CLS token features
patch_features = outputs.last_hidden_state[:, 1:] # patch-wise token features

高级用法

文档中未提及高级用法代码示例，若有更复杂的使用场景需求，可进一步探索模型的API文档或相关资料。

📚 详细文档

模型详情

属性	详情
模型类型	Vision Transformer (ViT)
架构	ViT（宽度2688，深度24，21个头）
参数数量	20亿
分辨率	224×224像素
训练方式	在经过重度过滤的MetaCLIP数据上进行自监督的Web-DINO训练

模型概述图

WebSSL模型概述

📄 许可证

本项目采用CC BY-NC 4.0许可证。

🔗 引用

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}