webssl-dino3b-heavy2b-224开源视觉模型 - 助力精准图像识别与分析

首页

Webssl Dino3b Heavy2b 224

由 facebook 开发

基于20亿级严选MetaCLIP数据训练的30亿参数视觉Transformer模型，采用DINOv2自监督学习框架

图像分类

Transformers

#30亿参数视觉模型 #无语言监督学习 #图表文档理解

下载量 26

发布时间 : 4/25/2025

模型简介

这是一个通过自监督学习训练的视觉Transformer模型，专注于图像理解任务，特别擅长处理包含文本的图表和文档图像

模型特点

严选数据训练

使用仅占原始MetaCLIP数据集1.3%的高质量数据子集训练，特别包含可读文本的图表、表格和文档图像

自监督学习

采用DINOv2框架进行训练，无需语言监督即可学习强大的视觉表征

大规模参数

30亿参数的视觉Transformer架构，能够捕捉复杂的视觉特征

OCR增强

针对文本和图表理解进行了优化，在保持其他视觉任务性能的同时显著提升OCR能力

模型能力

图像特征提取

视觉表征学习

图表理解

文档图像分析

OCR相关任务

使用案例

文档处理

表格识别

从扫描文档中提取表格结构和内容

高精度的表格识别能力

图表理解

分析图表图像并提取关键信息

准确的图表内容解析

计算机视觉

图像检索

基于视觉特征的图像搜索

高效的图像相似度匹配

视觉表征学习

为下游任务提供预训练视觉特征

强大的迁移学习能力

🚀 Web-SSL DINO ViT-3B：重度过滤的20亿条MetaCLIP数据，224分辨率

本项目是一个具有30亿参数的视觉变换器（ViT）模型，它采用DINOv2自监督学习方法，在经过重度过滤的网络规模图像数据上进行训练，且不依赖语言监督。该模型在论文"Scaling Language-Free Visual Representation Learning" （Fan等人，2025年）中被首次提出。

🚀 快速开始

Web-SSL DINO 3B模型是一个拥有30亿参数的视觉变换器模型，它使用自监督学习方法，在经过重度过滤的网络图像上进行训练，无需语言监督。下面是使用该模型的示例代码：

from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image

processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino3b-heavy2b-224')
model = Dinov2Model.from_pretrained('facebook/webssl-dino3b-heavy2b-224')

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

cls_features = outputs.last_hidden_state[:, 0]  # CLS token features
patch_features = outputs.last_hidden_state[:, 1:] # patch-wise token features

✨ 主要特性

针对性过滤：“heavy2b” 表示该模型是在包含图表、表格和带有可读文本的文档的图像子集上进行训练的，这些图像仅占原始MetaCLIP数据集的1.3%。这种针对性的过滤显著提高了OCR和图表理解能力，同时在其他视觉任务上也保持了较强的性能。
纯视觉学习：该模型证明了在适当扩展的情况下，纯视觉学习在各种视觉任务上可以达到或超过像CLIP这样的语言监督模型的性能。

📦 安装指南

文档未提及安装步骤，跳过该章节。

💻 使用示例

基础用法

from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image

processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino3b-heavy2b-224')
model = Dinov2Model.from_pretrained('facebook/webssl-dino3b-heavy2b-224')

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

cls_features = outputs.last_hidden_state[:, 0]  # CLS token features
patch_features = outputs.last_hidden_state[:, 1:] # patch-wise token features

高级用法

文档未提及高级用法代码，跳过该部分。

📚 详细文档

模型详情

属性	详情
模型架构	ViT（宽度3072，深度26，24头）
模型参数	30亿
图像分辨率	224×224像素
训练方式	在经过重度过滤的MetaCLIP数据上进行自监督Web-DINO训练

模型描述

Web-SSL DINO 3B是一个拥有30亿参数的视觉变换器模型，它使用自监督学习方法，在经过重度过滤的网络图像上进行训练，无需语言监督。“heavy2b” 表示该模型是在包含图表、表格和带有可读文本的文档的图像子集上进行训练的，这些图像仅占原始MetaCLIP数据集的1.3%。这种针对性的过滤显著提高了OCR和图表理解能力，同时在其他视觉任务上也保持了较强的性能。该模型证明了在适当扩展的情况下，纯视觉学习在各种视觉任务上可以达到或超过像CLIP这样的语言监督模型的性能。

WebSSL模型概述

🔧 技术细节

文档未提供足够的技术细节（少于50字），跳过该章节。

📄 许可证

本项目采用CC BY-NC 4.0许可证。

📖 引用

如果您使用了该模型，请引用以下论文：

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}