D

Donut Base

由 naver-clova-ix 开发
Donut是一种无需OCR的文档理解Transformer模型,由视觉编码器(Swin Transformer)和文本解码器(BART)组成。
下载量 50.34k
发布时间 : 7/19/2022
模型介绍
内容详情
替代品

模型简介

该模型是Donut的纯预训练版本,需要在下游任务上进行微调才能使用。它能够直接从图像中理解文档内容,无需传统OCR步骤。

模型特点

无需OCR处理
直接处理图像输入,避免了传统OCR流程中的误差累积问题
端到端训练
视觉编码器和文本解码器联合训练,实现端到端的文档理解
灵活的下游应用
可通过微调适应多种文档理解任务,如分类、解析等

模型能力

图像转文本
文档理解
视觉特征提取
文本生成

使用案例

文档处理
文档图像分类
对扫描的文档图像进行分类
文档解析
从文档图像中提取结构化信息