webssl-dino1b-full2b-224开源视觉模型 - 免语言监督学习视觉表示

首页

Webssl Dino1b Full2b 224

由 facebook 开发

这是一个通过DINOv2自监督学习在20亿网络图像上训练的10亿参数视觉Transformer模型，无需语言监督即可学习视觉表示。

图像分类

Transformers

#自监督视觉学习 #亿级参数规模 #无语言监督

下载量 1,172

发布时间 : 4/25/2025

模型简介

该模型证明纯视觉学习在规模适当时可以达到或超过语言监督模型的性能，适用于各种视觉任务。

模型特点

大规模自监督学习

基于20亿网络图像进行训练，无需语言监督

高性能视觉表示

在多种视觉任务上达到或超过语言监督模型的性能

高效架构设计

采用ViT架构，宽度1536，深度40，24个头

模型能力

图像特征提取

视觉表示学习

图像分类

目标检测

使用案例

计算机视觉

图像分类

使用模型提取的图像特征进行分类任务

目标检测

利用模型学习到的视觉表示进行目标检测

🚀 Web-SSL DINO ViT-1B: 2B MetaCLIP数据，224分辨率

本项目是一个具有10亿参数的视觉变换器（ViT）模型，它在无语言监督的情况下，利用DINOv2自监督学习方法在网络规模的图像数据上进行训练。该模型出自论文"Scaling Language-Free Visual Representation Learning"（Fan等人，2025年）。

✨ 主要特性

采用无语言监督的自监督学习方式，在大规模网络图像数据上进行训练。
纯视觉学习在适当扩展规模后，在各种视觉任务中可媲美甚至超越像CLIP这样的语言监督模型的性能。

📦 安装指南

文档未提及安装步骤，跳过此章节。

💻 使用示例

基础用法

from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image

processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino1b-full2b-224')
# 'eager' and 'sdpa' attn_implementation supported
model = Dinov2Model.from_pretrained('facebook/webssl-dino1b-full2b-224')

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

cls_features = outputs.last_hidden_state[:, 0]  # CLS token features
patch_features = outputs.last_hidden_state[:, 1:] # patch-wise token features

高级用法

文档未提及高级用法代码示例，跳过此部分。

📚 详细文档

模型详情

属性	详情
架构	ViT（宽度1536，深度40，24头）
参数数量	10亿
分辨率	224×224像素
训练方式	在来自MetaCLIP网络数据的20亿个图像样本上进行自监督Web - DINO训练

模型描述

Web - SSL DINO 1B是一个具有10亿参数的视觉变换器模型，它在无语言监督的情况下，使用自监督学习方法在20亿张网络图像上进行训练。该模型表明，纯视觉学习在适当扩展规模后，在各种视觉任务中可以达到或超过像CLIP这样的语言监督模型的性能。

WebSSL模型概述

📄 许可证

本项目采用CC - BY - NC - 4.0许可证。

📚 引用

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}