Donut-proto开源文档理解模型 - 无需OCR实现图像到文本转换

首页

Donut Proto

由 naver-clova-ix 开发

Donut是一种无需OCR的文档理解Transformer模型，结合视觉编码器和文本解码器处理图像到文本的转换

图像生成文本

Transformers

开源协议:MIT #无OCR文档理解 #视觉-文本转换 #Swin-BART架构

下载量 30

发布时间 : 7/19/2022

模型简介

Donut模型由Swin Transformer视觉编码器和BART文本解码器组成，能够将图像编码为嵌入张量并自回归生成文本，专为文档理解任务设计

模型特点

无需OCR处理

直接处理图像输入，避免了传统OCR流程中的错误累积问题

端到端训练

视觉编码器和文本解码器联合训练，实现图像到文本的直接转换

文档理解能力

专门针对文档图像优化，可理解文档结构和内容

模型能力

文档图像处理

图像到文本转换

文档结构理解

视觉-语言联合建模

使用案例

文档处理

文档图像分类

自动识别和分类不同类型的文档图像

文档解析

从文档图像中提取结构化信息

🚀 Donut（基础大小模型，仅预训练）

Donut是一个仅经过预训练的模型。它由Geewok等人在论文无需OCR的文档理解Transformer中提出，并首次在此仓库中发布。

声明：发布Donut的团队并未为此模型撰写模型卡片，此模型卡片由Hugging Face团队撰写。

🚀 快速开始

Donut模型可用于文档图像分类或文档解析等下游任务的微调。你可以在模型中心查找针对你感兴趣任务的微调版本。有关代码示例，请参考文档。

✨ 主要特性

架构设计：Donut由视觉编码器（Swin Transformer）和文本解码器（BART）组成。给定一张图像，编码器首先将图像编码为嵌入张量（形状为batch_size, seq_len, hidden_size），然后解码器在编码器编码的条件下自回归地生成文本。
应用广泛：适用于文档图像分类、文档解析等下游任务。

🔧 技术细节

模型架构

Donut由一个视觉编码器（Swin Transformer）和一个文本解码器（BART）构成。当输入一张图像时，编码器会把图像编码成一个嵌入张量（形状为batch_size, seq_len, hidden_size），随后解码器会基于编码器的编码结果自回归地生成文本。

模型架构图

论文引用

如果你在研究中使用了Donut模型，请使用以下BibTeX条目进行引用：

@article{DBLP:journals/corr/abs-2111-15664,
  author    = {Geewook Kim and
               Teakgyu Hong and
               Moonbin Yim and
               Jinyoung Park and
               Jinyeong Yim and
               Wonseok Hwang and
               Sangdoo Yun and
               Dongyoon Han and
               Seunghyun Park},
  title     = {Donut: Document Understanding Transformer without {OCR}},
  journal   = {CoRR},
  volume    = {abs/2111.15664},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.15664},
  eprinttype = {arXiv},
  eprint    = {2111.15664},
  timestamp = {Thu, 02 Dec 2021 10:50:44 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-15664.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}