webssl - dino300m - full2b - 224开源视觉模型 - 基于海量数据实现图像识别等视觉应用

首页

Webssl Dino300m Full2b 224

由 facebook 开发

基于20亿MetaCLIP数据的224分辨率视觉Transformer模型，采用DINOv2自监督学习方法训练

图像分类

Transformers

#自监督视觉表征 #3亿参数ViT #无语言监督

下载量 503

发布时间 : 4/25/2025

模型简介

这是一个参数量达3亿的视觉Transformer模型，通过自监督学习在20亿网络图像上训练而成，无需语言监督，适用于各种视觉任务。

模型特点

大规模自监督学习

基于20亿网络图像进行训练，全程无需语言监督

高性能视觉表征

在各种视觉任务上的表现可媲美甚至超越语言监督模型

高分辨率处理

支持224×224像素分辨率输入

模型能力

图像特征提取

视觉表征学习

图像分类

目标检测

使用案例

计算机视觉

图像分类

利用模型提取的特征进行图像分类任务

目标检测

结合检测头实现高效目标检测

🚀 Web-SSL DINO ViT-300M: 2B MetaCLIP数据，224分辨率

本项目是一个具有3亿参数的视觉Transformer（ViT）模型，它在无语言监督的情况下，使用DINOv2自监督学习方法在网络规模的图像数据上进行训练。该模型在论文"Scaling Language-Free Visual Representation Learning"（Fan等人，2025年）中被提出。

✨ 主要特性

采用自监督学习，在无语言监督的20亿张网络图像上进行训练。
纯视觉学习在适当扩展时，在各种视觉任务中可媲美甚至超越像CLIP这样的语言监督模型。

📦 安装指南

文档未提及安装步骤，跳过此章节。

💻 使用示例

基础用法

from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image

processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino300m-full2b-224')
model = Dinov2Model.from_pretrained('facebook/webssl-dino300m-full2b-224')

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

cls_features = outputs.last_hidden_state[:, 0]  # CLS token features
patch_features = outputs.last_hidden_state[:, 1:] # patch-wise token features

📚 详细文档

模型详情

属性	详情
架构	ViT（宽度1536，深度40，24个头）
参数数量	3亿
分辨率	224×224像素
训练方式	在来自MetaCLIP网络数据的20亿个图像样本上进行自监督Web-DINO训练

模型描述

Web-SSL DINO 300M是一个具有3亿参数的视觉Transformer模型，它在无语言监督的情况下，使用自监督学习方法在20亿张网络图像上进行训练。该模型表明，当纯视觉学习进行适当扩展时，在各种视觉任务中，其性能可以与像CLIP这样的语言监督模型相匹配甚至超越它们。

WebSSL模型概述

📄 许可证

本项目采用CC BY-NC 4.0许可证。

📚 引用

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}