webssl-dino2b-full2b-224开源视觉模型 - 免费部署助力多模态任务高效完成

首页

Webssl Dino2b Full2b 224

由 facebook 开发

20亿参数视觉Transformer模型，通过纯视觉自监督学习在20亿网络图像上训练而成，在多模态任务中表现优异

图像分类

Transformers

#20亿参数视觉模型 #无语言监督学习 #网页规模图像训练

下载量 50

发布时间 : 4/25/2025

模型简介

这是一个基于DINOv2自监督学习框架训练的20亿参数视觉Transformer模型，无需语言监督，在各类视觉任务中达到或超越语言监督模型的性能

模型特点

纯视觉自监督学习

无需语言监督，仅通过视觉数据进行训练

大规模训练

在20亿网络图像样本上进行训练

高性能表现

在传统视觉基准测试和多模态任务中表现优异

双注意力实现

支持'eager'和'sdpa'两种注意力实现方式

模型能力

图像特征提取

视觉表征学习

多模态任务处理

视觉问答

OCR识别

图表理解

使用案例

计算机视觉

图像分类

利用模型提取的图像特征进行分类任务

达到或超越语言监督模型的性能

目标检测

通过模型的分块标记特征进行目标定位

多模态应用

视觉问答

结合语言模型实现图像内容问答

表现优异

图表理解

解析和理解图表中的视觉信息

🚀 Web-SSL DINO ViT-2B：20亿MetaCLIP数据，224分辨率

本项目是一个具有20亿参数的视觉变换器（ViT）模型，它采用DINOv2自监督学习方法，在无语言监督的网络规模图像数据上进行训练。该模型在论文"Scaling Language-Free Visual Representation Learning"（Fan等人，2025年）中被首次提出。

🚀 快速开始

Web-SSL DINO 2B是一个拥有20亿参数的视觉变换器模型，它在20亿张无语言监督的网络图像上进行自监督学习训练。该模型表明，在适当的规模下，纯视觉学习在各种视觉任务中可以达到甚至超越像CLIP这样的语言监督模型的性能。它在传统视觉基准测试和包括视觉问答、OCR和图表理解在内的多模态任务中均表现出色。

✨ 主要特性

基于自监督学习，无需语言监督，在大规模网络图像数据上进行训练。
能够在多种视觉和多模态任务中达到或超越语言监督模型的性能。

📦 安装指南

暂未提供相关安装步骤。

💻 使用示例

基础用法

from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image

processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino2b-full2b-224')
# 'eager' and 'sdpa' attn_implementation supported
model = Dinov2Model.from_pretrained('facebook/webssl-dino2b-full2b-224')

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

cls_features = outputs.last_hidden_state[:, 0]  # CLS token features
patch_features = outputs.last_hidden_state[:, 1:] # patch-wise token features

📚 详细文档

模型详情

属性	详情
架构	ViT（宽度2688，深度24，21个头）
参数	20亿
分辨率	224×224像素
训练方式	在来自MetaCLIP网络数据的20亿个图像样本上进行自监督Web-DINO训练

模型描述

Web-SSL DINO 2B在多种视觉任务中表现出色，以下是模型的一些效果展示： WebSSL Model Overview

📄 许可证

本项目采用CC BY-NC 4.0许可证。

📚 引用

如果您使用了该模型，请引用以下论文：

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}