Dolphin开源多模态文档图像解析模型 - 先分析后解析处理复杂文档元素

首页

Dolphin

由 ByteDance 开发

海豚是一种创新的多模态文档图像解析模型，采用'先分析后解析'的范式处理复杂文档元素。

图像生成文本

Transformers

支持多种语言开源协议:MIT #两阶段文档解析 #异构锚点提示 #多元素并行处理

下载量 1,620

发布时间 : 5/19/2025

模型简介

海豚是一种用于文档图像解析的多模态模型，能够处理文本段落、图表、公式和表格等复杂交织的文档元素。它通过两阶段方法实现全面的页面级布局分析和高效的元素级解析。

模型特点

两阶段解析方法

先进行页面级布局分析，再进行元素级解析，有效处理复杂文档结构

异构锚点提示

使用自然语言提示控制解析任务，提高解析效率和准确性

并行解析机制

轻量级架构支持多种文档元素的并行解析，提高处理效率

多模态能力

同时处理视觉和文本信息，适用于复杂文档理解任务

模型能力

文档图像解析

版面分析

表格提取

光学字符识别

公式识别

图表理解

多模态处理

使用案例

文档数字化

扫描文档解析

将扫描的PDF或图像转换为结构化数字文档

保留原始文档的布局和内容结构

信息提取

表格数据提取

从文档图像中提取表格数据并转换为结构化格式

高精度的表格结构识别和数据提取

公式识别

识别文档中的数学公式并转换为可编辑格式

支持复杂数学符号和结构的识别

🚀 Dolphin：基于异构锚点提示的文档图像解析

Dolphin是一款新颖的多模态文档图像解析模型，采用先分析后解析的范式。它通过两阶段方法应对复杂文档理解的挑战，能够处理文本段落、图表、公式和表格等相互交织的元素，为文档处理提供了高效且准确的解决方案。

🚀 快速开始

我们的演示将在近日发布，请持续关注！具体使用方法请参考我们的 GitHub仓库：

逐页解析：用于处理整个文档图像
逐元素解析：用于处理单个元素（段落、表格、公式）图像

✨ 主要特性

两阶段处理：通过两阶段方法应对文档图像解析中元素复杂交织的挑战。第一阶段按自然阅读顺序生成元素序列进行全面的页面级布局分析；第二阶段使用异构锚点和特定任务提示对文档元素进行高效并行解析。
多模态融合：结合视觉和语言信息，实现对文档图像的深入理解。
高效性能：凭借轻量级架构和并行解析机制，在各种页面级和元素级解析任务中取得了良好的性能，同时确保了卓越的效率。

📚 详细文档

模型描述

Dolphin（通过异构锚点提示进行文档图像解析）是一种新颖的多模态文档图像解析模型，遵循先分析后解析的范式。它通过两阶段方法应对复杂文档理解的挑战，旨在处理文本段落、图表、公式和表格等相互交织的元素。

概述

由于文档图像中存在文本段落、图表、公式和表格等复杂交织的元素，文档图像解析具有挑战性。Dolphin通过两阶段方法应对这些挑战：

阶段1：按自然阅读顺序生成元素序列，进行全面的页面级布局分析。
阶段2：使用异构锚点和特定任务提示对文档元素进行高效并行解析。

Dolphin在各种页面级和元素级解析任务中取得了良好的性能，同时通过其轻量级架构和并行解析机制确保了卓越的效率。

模型架构

Dolphin基于Transformer构建了一个视觉编码器 - 解码器架构：

视觉编码器：基于Swin Transformer从文档图像中提取视觉特征。
文本解码器：基于MBart从视觉特征中解码文本。
基于提示的接口：使用自然语言提示控制解析任务。

该模型实现为Hugging Face的 VisionEncoderDecoderModel，便于与Transformers生态系统集成。

📄 许可证

本模型遵循MIT许可证发布。

📚 引用

@inproceedings{dolphin2025,
  title={Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting},
  author={Feng, Hao and Wei, Shu and Fei, Xiang and Shi, Wei and Han, Yingdong and Liao, Lei and Lu, Jinghui and Wu, Binghong and Liu, Qi and Lin, Chunhui and Tang, Jingqun and Liu, Hao and Huang, Can},
  year={2025},
  booktitle={Proceedings of the 65rd Annual Meeting of the Association for Computational Linguistics (ACL)}
}