W

Webssl Dino3b Full2b 224

由 facebook 开发
这是一个通过DINOv2自监督学习在20亿网络图像上训练的30亿参数视觉Transformer模型,无需语言监督即可学习强大的视觉表征。
下载量 72
发布时间 : 4/25/2025
模型介绍
内容详情
替代品

模型简介

该模型证明纯视觉学习可以在各种视觉任务中达到或超过语言监督模型的性能,适用于传统视觉基准测试及多模态任务。

模型特点

大规模自监督学习
基于20亿网络图像进行训练,无需语言监督即可学习强大的视觉表征
高性能视觉模型
在各种视觉任务中达到或超过语言监督模型的性能
多任务适用性
适用于传统视觉基准测试以及视觉问答、OCR和图表理解等多模态任务

模型能力

图像特征提取
视觉表征学习
多模态任务处理

使用案例

计算机视觉
图像分类
用于图像分类任务
在传统视觉基准测试中表现优异
视觉问答
处理需要视觉理解的问答任务
文档分析
OCR
光学字符识别应用
图表理解
解析和理解图表内容