D

Donut Finetune Rvl Cdip

由 sitloboi2012 开发
基于Donut框架的文档分类模型,在RVL-CDIP小规模数据集上训练
下载量 18
发布时间 : 9/30/2023
模型介绍
内容详情
替代品

模型简介

该模型采用Donut框架和VisionEncoderDecoder架构,专为端到端文档分类任务设计,适用于处理英语文档图像。

模型特点

端到端文档分类
直接处理图像输入并输出分类结果,无需单独OCR步骤
小规模数据集训练
在RVL-CDIP的100张图像子集上训练,适合快速验证和基准测试
基于Donut框架
利用先进的视觉-语言模型架构处理文档AI任务

模型能力

文档图像分类
英语文档处理
端到端图像到文本转换

使用案例

文档管理
食品文档分类
自动识别和分类食品相关文档
财务文档处理
对发票、收据等财务文件进行分类