Layout-XLM开源文档理解模型 - 免费支持多语言文档布局分析与标记分类

Layout Xlm Base Finetuned With DocLayNet Base At Linelevel Ml384

由 pierreguillou 开发

基于LayoutXLM基础模型在DocLayNet数据集上微调的行级别文档理解模型，支持多语言文档布局分析和标记分类。

下载量 103

发布时间 : 3/2/2023

模型简介

该模型专门用于文档布局分析和理解，能够识别和分类文档中的不同元素（如文本、标题、表格等），适用于处理财务报告、科学论文、法律文件等多种文档类型。

多语言支持

支持英语、德语、法语和日语等多种语言的文档理解。

行级别分析

在384个标记块（带128个标记重叠）的行级别上进行微调，提供精细的文档元素识别。

高性能标记分类

在DocLayNet评估集上达到0.7336的F1值和0.9373的准确率。

文档布局分析

标记分类

多语言文本理解

行级别元素识别

金融文档处理

财务报告分析

自动识别财务报告中的表格、标题和正文内容。

提高财务数据提取的效率和准确性。

学术研究

科学论文解析

提取科学论文中的章节标题、图表和参考文献。

辅助研究人员快速获取论文结构信息。

法律文件处理

合同条款识别

自动标记法律文件中的条款、定义和签名区域。

加速法律文档审查流程。