D

Donut Base Finetuned Cord V2

由 naver-clova-ix 开发
Donut是一个无需OCR的文档理解Transformer模型,由视觉编码器(Swin Transformer)和文本解码器(BART)组成,能够直接从图像中提取文本信息。
下载量 21.63k
发布时间 : 7/19/2022
模型介绍
内容详情
替代品

模型简介

该模型在CORD数据集上进行了微调,专门用于文档解析任务,能够将图像中的文档内容转换为结构化文本。

模型特点

无需OCR的文档理解
直接处理图像输入,无需传统OCR预处理步骤
端到端训练
视觉编码器和文本解码器联合训练,优化整体性能
基于Transformer架构
结合Swin Transformer和BART的优势,实现高效的视觉-语言建模

模型能力

文档图像理解
图像到文本转换
结构化文档解析

使用案例

文档处理
收据解析
从收据图像中提取结构化信息如商家名称、商品列表、价格等
在CORD数据集上表现良好
表格识别
将图像中的表格转换为可编辑的文本格式