D

Dit Base Finetuned Rvlcdip

由 microsoft 开发
DiT是一种基于Transformer的文档图像分类模型,在IIT-CDIP数据集上预训练并在RVL-CDIP数据集上微调
下载量 31.99k
发布时间 : 3/7/2022
模型介绍
内容详情
替代品

模型简介

该模型通过自监督学习在大量文档图像上进行预训练,主要用于文档图像分类任务,能够将文档图像编码为向量表示

模型特点

自监督预训练
使用掩码图像块预测任务在大规模文档图像上进行预训练
文档图像分类
专门针对文档图像优化的分类能力,支持16个文档类别
Transformer架构
采用与BEiT相同的Transformer架构,适合处理图像数据

模型能力

文档图像分类
文档特征提取
图像编码

使用案例

文档管理
自动文档分类
自动将扫描的文档分类为广告、科学出版物等16个类别
在RVL-CDIP数据集上表现良好
信息提取
文档布局分析
识别文档中的不同区域和结构