D

Donut Receipts Extract

由 AdamCodd 开发
基于Donut架构的收据文本提取专用模型,通过视觉编码器和文本解码器实现无需OCR的文档理解
下载量 66
发布时间 : 1/28/2024
模型介绍
内容详情
替代品

模型简介

该模型专门用于从收据图像中提取结构化文本信息,采用Swin Transformer视觉编码器和BART文本解码器架构,支持端到端的收据信息识别与提取。

模型特点

无需OCR的文档理解
直接处理图像输入,无需传统OCR预处理步骤即可提取文本信息
双分辨率处理
V2版本采用双倍分辨率处理收据图像,显著提升识别精度
结构化输出
自动生成JSON格式的结构化数据,包含收据关键字段(如金额、电话、折扣等)
改进的数据集
基于去重并人工校正的数据集训练,相比V1版本性能显著提升

模型能力

收据图像识别
文本信息提取
结构化数据生成
多字段联合解析

使用案例

零售与财务
电子收据归档
自动提取纸质收据的金额、日期等关键信息
准确率89.5%,字符错误率15.8%
费用报销系统
识别员工提交的收据图像并自动填充报销表单
支持<s_total>、<s_date>等12个关键字段提取