D

Donut Base Finetuned Cord V1 2560

由 naver-clova-ix 开发
Donut是一种无需OCR的文档理解Transformer模型,结合视觉编码器和文本解码器实现图像到文本的转换。
下载量 30
发布时间 : 7/19/2022
模型介绍
内容详情
替代品

模型简介

Donut模型通过Swin Transformer编码图像,BART解码器生成文本,专为文档解析任务设计,特别在CORD数据集上进行了微调。

模型特点

无需OCR的文档理解
直接处理图像输入,无需传统OCR预处理步骤
端到端训练
视觉编码器和文本解码器联合训练,实现图像到文本的直接转换
高效架构
结合Swin Transformer的高效图像编码和BART的强大文本生成能力

模型能力

文档图像理解
图像到文本转换
结构化信息提取

使用案例

文档处理
收据解析
从收据图像中提取结构化信息如商家名称、金额、日期等
在CORD数据集上表现优异
表单识别
自动识别和提取表单中的字段和内容