webssl - dino3b - full2b - 224开源视觉模型 - 免费部署学习强大视觉表征

首页

Webssl Dino3b Full2b 224

由 facebook 开发

这是一个通过DINOv2自监督学习在20亿网络图像上训练的30亿参数视觉Transformer模型，无需语言监督即可学习强大的视觉表征。

图像分类

Transformers

#自监督视觉表征 #30亿参数ViT #无语言监督

下载量 72

发布时间 : 4/25/2025

模型简介

该模型证明纯视觉学习可以在各种视觉任务中达到或超过语言监督模型的性能，适用于传统视觉基准测试及多模态任务。

模型特点

大规模自监督学习

基于20亿网络图像进行训练，无需语言监督即可学习强大的视觉表征

高性能视觉模型

在各种视觉任务中达到或超过语言监督模型的性能

多任务适用性

适用于传统视觉基准测试以及视觉问答、OCR和图表理解等多模态任务

模型能力

图像特征提取

视觉表征学习

多模态任务处理

使用案例

计算机视觉

图像分类

用于图像分类任务

在传统视觉基准测试中表现优异

视觉问答

处理需要视觉理解的问答任务

文档分析

OCR

光学字符识别应用

图表理解

解析和理解图表内容

🚀 Web-SSL DINO ViT-3B: 2B MetaCLIP数据，224分辨率

本项目是一个具有30亿参数的视觉变换器（ViT）模型，它在无语言监督的情况下，利用DINOv2自监督学习方法在网络规模的图像数据上进行训练。该模型在论文"Scaling Language-Free Visual Representation Learning"（Fan等人，2025年）中被提出。

🚀 快速开始

Web-SSL DINO 3B是一个具有30亿参数的视觉变换器模型，它在无语言监督的情况下，使用自监督学习方法在20亿张网络图像上进行训练。该模型表明，在适当扩展的情况下，纯视觉学习在各种视觉任务中的表现可以与或超过像CLIP这样的语言监督模型。它在传统视觉基准测试和多模态任务（包括视觉问答、OCR和图表理解）中都表现出色。

✨ 主要特性

架构先进：采用ViT架构（宽度3072，深度26，头数24）。
参数规模大：拥有30亿参数。
分辨率适中：支持224×224像素的图像分辨率。
训练数据丰富：基于MetaCLIP网络数据中的20亿个图像样本，使用自监督Web - DINO方法进行训练。

📦 安装指南

文档未提及安装步骤，暂不展示。

💻 使用示例

基础用法

from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image

processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino3b-full2b-224')
# 'eager' and 'sdpa' attn_implementation supported
model = Dinov2Model.from_pretrained('facebook/webssl-dino3b-full2b-224')

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

cls_features = outputs.last_hidden_state[:, 0]  # CLS token features
patch_features = outputs.last_hidden_state[:, 1:] # patch-wise token features

高级用法

文档未提及高级用法代码示例，暂不展示。

📚 详细文档

模型详情

属性	详情
模型类型	视觉变换器（ViT）
训练数据	基于MetaCLIP网络数据中的20亿个图像样本，使用自监督Web - DINO方法进行训练
架构参数	宽度3072，深度26，头数24
总参数	30亿
图像分辨率	224×224像素

模型概述图

WebSSL Model Overview

🔧 技术细节

文档未提供足够的技术实现细节，暂不展示。

📄 许可证

本项目采用CC - BY - NC - 4.0许可证。

📄 引用

如果您使用了本模型，请引用以下论文：

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}