W

Webssl Mae1b Full2b 224

由 facebook 开发
10亿参数的视觉Transformer模型,通过掩码自编码器自监督学习方法在20亿网络图像上训练,无需语言监督即可学习视觉表征。
下载量 36
发布时间 : 4/25/2025
模型介绍
内容详情
替代品

模型简介

该模型证明纯视觉学习方法可以在各类视觉任务中达到或超越语言监督模型的性能,尤其在OCR和图表理解任务中表现突出。

模型特点

大规模自监督学习
基于20亿网络图像进行训练,全程无需语言监督
高效视觉表征
在OCR和图表理解等任务中表现优于语言监督模型
纯视觉架构
采用ViT架构,专注于视觉信息处理

模型能力

图像特征提取
视觉表征学习
OCR任务处理
图表理解

使用案例

文档处理
光学字符识别(OCR)
从图像中提取文本信息
优于语言监督模型的识别精度
数据可视化
图表理解
解析图表中的数据和关系
表现出色的理解能力