W

Webssl Dino1b Full2b 224

由 facebook 开发
这是一个通过DINOv2自监督学习在20亿网络图像上训练的10亿参数视觉Transformer模型,无需语言监督即可学习视觉表示。
下载量 1,172
发布时间 : 4/25/2025
模型介绍
内容详情
替代品

模型简介

该模型证明纯视觉学习在规模适当时可以达到或超过语言监督模型的性能,适用于各种视觉任务。

模型特点

大规模自监督学习
基于20亿网络图像进行训练,无需语言监督
高性能视觉表示
在多种视觉任务上达到或超过语言监督模型的性能
高效架构设计
采用ViT架构,宽度1536,深度40,24个头

模型能力

图像特征提取
视觉表示学习
图像分类
目标检测

使用案例

计算机视觉
图像分类
使用模型提取的图像特征进行分类任务
目标检测
利用模型学习到的视觉表示进行目标检测