D

Donut Proto

由 naver-clova-ix 开发
Donut是一种无需OCR的文档理解Transformer模型,结合视觉编码器和文本解码器处理图像到文本的转换
下载量 30
发布时间 : 7/19/2022
模型介绍
内容详情
替代品

模型简介

Donut模型由Swin Transformer视觉编码器和BART文本解码器组成,能够将图像编码为嵌入张量并自回归生成文本,专为文档理解任务设计

模型特点

无需OCR处理
直接处理图像输入,避免了传统OCR流程中的错误累积问题
端到端训练
视觉编码器和文本解码器联合训练,实现图像到文本的直接转换
文档理解能力
专门针对文档图像优化,可理解文档结构和内容

模型能力

文档图像处理
图像到文本转换
文档结构理解
视觉-语言联合建模

使用案例

文档处理
文档图像分类
自动识别和分类不同类型的文档图像
文档解析
从文档图像中提取结构化信息