W

Webssl Dino3b Heavy2b 224

由 facebook 开发
基于20亿级严选MetaCLIP数据训练的30亿参数视觉Transformer模型,采用DINOv2自监督学习框架
下载量 26
发布时间 : 4/25/2025
模型介绍
内容详情
替代品

模型简介

这是一个通过自监督学习训练的视觉Transformer模型,专注于图像理解任务,特别擅长处理包含文本的图表和文档图像

模型特点

严选数据训练
使用仅占原始MetaCLIP数据集1.3%的高质量数据子集训练,特别包含可读文本的图表、表格和文档图像
自监督学习
采用DINOv2框架进行训练,无需语言监督即可学习强大的视觉表征
大规模参数
30亿参数的视觉Transformer架构,能够捕捉复杂的视觉特征
OCR增强
针对文本和图表理解进行了优化,在保持其他视觉任务性能的同时显著提升OCR能力

模型能力

图像特征提取
视觉表征学习
图表理解
文档图像分析
OCR相关任务

使用案例

文档处理
表格识别
从扫描文档中提取表格结构和内容
高精度的表格识别能力
图表理解
分析图表图像并提取关键信息
准确的图表内容解析
计算机视觉
图像检索
基于视觉特征的图像搜索
高效的图像相似度匹配
视觉表征学习
为下游任务提供预训练视觉特征
强大的迁移学习能力