O

OCR DocVQA Donut

由 jinhybr 开发
Donut是一个OCR-free的文档理解Transformer模型,结合视觉编码器和文本解码器实现文档视觉问答任务。
下载量 240
发布时间 : 11/4/2022
模型介绍
内容详情
替代品

模型简介

基于DocVQA微调的Donut模型,通过Swin Transformer编码图像,BART解码器生成文本,实现无需OCR的文档理解。

模型特点

OCR-free处理
无需传统OCR步骤,直接从图像理解文档内容
端到端训练
视觉编码和文本生成联合优化
文档理解
可解析发票、合同等结构化文档中的关键信息

模型能力

文档图像理解
视觉问答
关键信息提取
跨模态表示学习

使用案例

文档处理
发票信息提取
从发票图像中自动识别号码、金额等关键字段
示例显示可准确提取发票号码
合同解析
解析合同文档中的条款和金额信息
示例展示可识别采购金额