W

Webssl Dino300m Full2b 224

由 facebook 开发
基于20亿MetaCLIP数据的224分辨率视觉Transformer模型,采用DINOv2自监督学习方法训练
下载量 503
发布时间 : 4/25/2025
模型介绍
内容详情
替代品

模型简介

这是一个参数量达3亿的视觉Transformer模型,通过自监督学习在20亿网络图像上训练而成,无需语言监督,适用于各种视觉任务。

模型特点

大规模自监督学习
基于20亿网络图像进行训练,全程无需语言监督
高性能视觉表征
在各种视觉任务上的表现可媲美甚至超越语言监督模型
高分辨率处理
支持224×224像素分辨率输入

模型能力

图像特征提取
视觉表征学习
图像分类
目标检测

使用案例

计算机视觉
图像分类
利用模型提取的特征进行图像分类任务
目标检测
结合检测头实现高效目标检测