🚀 Web-SSL DINO ViT-3B:重度过滤的20亿条MetaCLIP数据,224分辨率
本项目是一个具有30亿参数的视觉变换器(ViT)模型,它采用DINOv2自监督学习方法,在经过重度过滤的网络规模图像数据上进行训练,且不依赖语言监督。该模型在论文"Scaling Language-Free Visual Representation Learning" (Fan等人,2025年)中被首次提出。
🚀 快速开始
Web-SSL DINO 3B模型是一个拥有30亿参数的视觉变换器模型,它使用自监督学习方法,在经过重度过滤的网络图像上进行训练,无需语言监督。下面是使用该模型的示例代码:
from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image
processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino3b-heavy2b-224')
model = Dinov2Model.from_pretrained('facebook/webssl-dino3b-heavy2b-224')
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
cls_features = outputs.last_hidden_state[:, 0]
patch_features = outputs.last_hidden_state[:, 1:]
✨ 主要特性
- 针对性过滤:“heavy2b” 表示该模型是在包含图表、表格和带有可读文本的文档的图像子集上进行训练的,这些图像仅占原始MetaCLIP数据集的1.3%。这种针对性的过滤显著提高了OCR和图表理解能力,同时在其他视觉任务上也保持了较强的性能。
- 纯视觉学习:该模型证明了在适当扩展的情况下,纯视觉学习在各种视觉任务上可以达到或超过像CLIP这样的语言监督模型的性能。
📦 安装指南
文档未提及安装步骤,跳过该章节。
💻 使用示例
基础用法
from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image
processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino3b-heavy2b-224')
model = Dinov2Model.from_pretrained('facebook/webssl-dino3b-heavy2b-224')
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
cls_features = outputs.last_hidden_state[:, 0]
patch_features = outputs.last_hidden_state[:, 1:]
高级用法
文档未提及高级用法代码,跳过该部分。
📚 详细文档
模型详情
属性 |
详情 |
模型架构 |
ViT(宽度3072,深度26,24头) |
模型参数 |
30亿 |
图像分辨率 |
224×224像素 |
训练方式 |
在经过重度过滤的MetaCLIP数据上进行自监督Web-DINO训练 |
模型描述
Web-SSL DINO 3B是一个拥有30亿参数的视觉变换器模型,它使用自监督学习方法,在经过重度过滤的网络图像上进行训练,无需语言监督。“heavy2b” 表示该模型是在包含图表、表格和带有可读文本的文档的图像子集上进行训练的,这些图像仅占原始MetaCLIP数据集的1.3%。这种针对性的过滤显著提高了OCR和图表理解能力,同时在其他视觉任务上也保持了较强的性能。该模型证明了在适当扩展的情况下,纯视觉学习在各种视觉任务上可以达到或超过像CLIP这样的语言监督模型的性能。

🔧 技术细节
文档未提供足够的技术细节(少于50字),跳过该章节。
📄 许可证
本项目采用CC BY-NC 4.0许可证。
📖 引用
如果您使用了该模型,请引用以下论文:
@article{fan2025scaling,
title={Scaling Language-Free Visual Representation Learning},
author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
year={2025},
eprint={2504.01017},
archivePrefix={arXiv},
primaryClass={cs.CV}
}