D

Dit Large Finetuned Rvlcdip

由 microsoft 开发
基于IIT-CDIP预训练并在RVL-CDIP上微调的文档图像分类模型,采用Transformer架构
下载量 67
发布时间 : 3/7/2022
模型介绍
内容详情
替代品

模型简介

该模型是一种基于自监督方式在大规模文档图像集合上预训练的Transformer编码器,主要用于文档图像分类等任务

模型特点

大规模预训练
基于IIT-CDIP数据集4200万张文档图像预训练
专业领域微调
在RVL-CDIP文档图像数据集上微调,包含16个类别
Transformer架构
采用与BEiT相同的Transformer编码器架构
自监督学习
使用掩码图像块预测任务进行预训练

模型能力

文档图像分类
文档特征提取
图像块编码

使用案例

文档处理
文档分类
将文档图像分类到16个预定义类别
在RVL-CDIP数据集上表现良好
表格检测
识别文档中的表格区域
文档布局分析
分析文档的布局结构