W

Webssl Dino3b Heavy2b 224

由 facebook 开发
基于20亿级严选MetaCLIP数据训练的30亿参数视觉Transformer模型,采用DINOv2自监督学习框架
下载量 26
发布时间 : 4/25/2025

模型简介

这是一个通过自监督学习训练的视觉Transformer模型,专注于图像理解任务,特别擅长处理包含文本的图表和文档图像

模型特点

严选数据训练
使用仅占原始MetaCLIP数据集1.3%的高质量数据子集训练,特别包含可读文本的图表、表格和文档图像
自监督学习
采用DINOv2框架进行训练,无需语言监督即可学习强大的视觉表征
大规模参数
30亿参数的视觉Transformer架构,能够捕捉复杂的视觉特征
OCR增强
针对文本和图表理解进行了优化,在保持其他视觉任务性能的同时显著提升OCR能力

模型能力

图像特征提取
视觉表征学习
图表理解
文档图像分析
OCR相关任务

使用案例

文档处理
表格识别
从扫描文档中提取表格结构和内容
高精度的表格识别能力
图表理解
分析图表图像并提取关键信息
准确的图表内容解析
计算机视觉
图像检索
基于视觉特征的图像搜索
高效的图像相似度匹配
视觉表征学习
为下游任务提供预训练视觉特征
强大的迁移学习能力
AIbase
智启未来,您的人工智能解决方案智库
简体中文