D

Donut Base Finetuned Docvqa

由 naver-clova-ix 开发
Donut是一种无需OCR的文档理解Transformer模型,基于DocVQA数据集微调,能够直接从图像中提取和理解文本信息。
下载量 167.80k
发布时间 : 7/19/2022
模型介绍
内容详情
替代品

模型简介

该模型由视觉编码器(Swin Transformer)和文本解码器(BART)组成,能够直接从文档图像中生成文本回答,无需传统OCR预处理步骤。

模型特点

无需OCR处理
直接处理文档图像,避免了传统OCR流程中的错误累积问题
端到端训练
视觉编码器和文本解码器联合训练,实现图像到文本的直接转换
文档理解能力
专门针对文档图像优化,能够理解发票、合同等结构化文档内容

模型能力

文档图像理解
视觉问答
文本信息提取
图像转文本

使用案例

文档处理
发票信息提取
从发票图像中提取号码、金额等关键信息
可准确识别结构化文档中的特定字段
合同条款查询
回答关于合同文档内容的特定问题
能够理解合同文档中的关键条款内容