D

Dolphin

由 ByteDance 开发
海豚是一种创新的多模态文档图像解析模型,采用'先分析后解析'的范式处理复杂文档元素。
下载量 1,620
发布时间 : 5/19/2025
模型介绍
内容详情
替代品

模型简介

海豚是一种用于文档图像解析的多模态模型,能够处理文本段落、图表、公式和表格等复杂交织的文档元素。它通过两阶段方法实现全面的页面级布局分析和高效的元素级解析。

模型特点

两阶段解析方法
先进行页面级布局分析,再进行元素级解析,有效处理复杂文档结构
异构锚点提示
使用自然语言提示控制解析任务,提高解析效率和准确性
并行解析机制
轻量级架构支持多种文档元素的并行解析,提高处理效率
多模态能力
同时处理视觉和文本信息,适用于复杂文档理解任务

模型能力

文档图像解析
版面分析
表格提取
光学字符识别
公式识别
图表理解
多模态处理

使用案例

文档数字化
扫描文档解析
将扫描的PDF或图像转换为结构化数字文档
保留原始文档的布局和内容结构
信息提取
表格数据提取
从文档图像中提取表格数据并转换为结构化格式
高精度的表格结构识别和数据提取
公式识别
识别文档中的数学公式并转换为可编辑格式
支持复杂数学符号和结构的识别