W

Webssl Dino2b Full2b 224

由 facebook 开发
20亿参数视觉Transformer模型,通过纯视觉自监督学习在20亿网络图像上训练而成,在多模态任务中表现优异
下载量 50
发布时间 : 4/25/2025
模型介绍
内容详情
替代品

模型简介

这是一个基于DINOv2自监督学习框架训练的20亿参数视觉Transformer模型,无需语言监督,在各类视觉任务中达到或超越语言监督模型的性能

模型特点

纯视觉自监督学习
无需语言监督,仅通过视觉数据进行训练
大规模训练
在20亿网络图像样本上进行训练
高性能表现
在传统视觉基准测试和多模态任务中表现优异
双注意力实现
支持'eager'和'sdpa'两种注意力实现方式

模型能力

图像特征提取
视觉表征学习
多模态任务处理
视觉问答
OCR识别
图表理解

使用案例

计算机视觉
图像分类
利用模型提取的图像特征进行分类任务
达到或超越语言监督模型的性能
目标检测
通过模型的分块标记特征进行目标定位
多模态应用
视觉问答
结合语言模型实现图像内容问答
表现优异
图表理解
解析和理解图表中的视觉信息