webssl-dino7b-full8b-378开源视觉模型 - 由80亿图像训练实现卓越视觉表征

首页

Webssl Dino7b Full8b 378

由 facebook 开发

基于80亿无语言标注网络图像训练的70亿参数视觉Transformer模型，通过自监督学习实现卓越的视觉表征能力

图像分类

Transformers

#无监督视觉表征 #高分辨率处理 #多模态适配

下载量 68

发布时间 : 4/25/2025

模型简介

该模型采用DINOv2自监督学习方法，在纯视觉学习方案下达到或超越语言监督模型的性能，适用于各类视觉任务和多模态应用

模型特点

大规模自监督训练

基于80亿无语言标注网络图像进行训练，验证了纯视觉学习方案的可行性

高分辨率处理

支持378×378像素输入分辨率，可捕获更精细的视觉特征

多任务适应性

在传统视觉基准测试及多模态任务中均表现优异

模型能力

图像特征提取

视觉表征学习

多模态任务处理

使用案例

计算机视觉

图像分类

利用模型提取的视觉特征进行图像分类任务

目标检测

通过分块标记特征实现细粒度目标检测

多模态应用

视觉问答

结合语言模型实现图像内容问答系统

表现优异

图表理解

解析复杂图表中的视觉信息

🚀 Web-SSL DINO ViT-7B: 8B MetaCLIP数据，378分辨率

本项目是一个具有70亿参数的视觉变换器（ViT）模型，它在无语言监督的情况下，利用DINOv2自监督学习方法在网络规模的图像数据上进行训练。该模型在论文"Scaling Language-Free Visual Representation Learning"（Fan等人，2025年）中被提出。

🚀 快速开始

Web-SSL DINO 7B是一个拥有70亿参数的视觉变换器模型，它在没有语言监督的情况下，对80亿张网络图像进行自监督学习训练。该模型表明，在适当扩展规模时，纯视觉学习在各种视觉任务中可以达到甚至超越像CLIP这样的语言监督模型的性能。它在传统视觉基准测试和多模态任务（包括视觉问答、OCR和图表理解）中都表现出色。

✨ 主要特性

基于自监督学习，无需语言监督，在网络规模图像数据上训练。
能够在多种视觉任务和多模态任务中达到或超越语言监督模型的性能。

📦 安装指南

文档未提及安装步骤，故跳过该章节。

💻 使用示例

基础用法

from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image

processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino7b-full8b-378')
model = Dinov2Model.from_pretrained('facebook/webssl-dino7b-full8b-378')

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

cls_features = outputs.last_hidden_state[:, 0]  # CLS token features
patch_features = outputs.last_hidden_state[:, 1:] # patch-wise token features

📚 详细文档

模型详情

属性	详情
架构	ViT（4096宽度，32深度，32头）
参数数量	70亿
分辨率	378×378像素
训练方式	在来自MetaCLIP网络数据的80亿个图像样本上进行自监督Web-DINO训练

模型描述

Web-SSL DINO 7B在无语言监督的情况下，对80亿张网络图像进行自监督学习训练。该模型在传统视觉基准测试和多模态任务（包括视觉问答、OCR和图表理解）中都表现出色。

WebSSL模型概述

📄 许可证

本项目采用CC BY-NC 4.0许可证。

📚 引用

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}