L

Layout Xlm Base Finetuned With DocLayNet Base At Linelevel Ml384

由 pierreguillou 开发
基于LayoutXLM基础模型在DocLayNet数据集上微调的行级别文档理解模型,支持多语言文档布局分析和标记分类。
下载量 103
发布时间 : 3/2/2023
模型介绍
内容详情
替代品

模型简介

该模型专门用于文档布局分析和理解,能够识别和分类文档中的不同元素(如文本、标题、表格等),适用于处理财务报告、科学论文、法律文件等多种文档类型。

模型特点

多语言支持
支持英语、德语、法语和日语等多种语言的文档理解。
行级别分析
在384个标记块(带128个标记重叠)的行级别上进行微调,提供精细的文档元素识别。
高性能标记分类
在DocLayNet评估集上达到0.7336的F1值和0.9373的准确率。

模型能力

文档布局分析
标记分类
多语言文本理解
行级别元素识别

使用案例

金融文档处理
财务报告分析
自动识别财务报告中的表格、标题和正文内容。
提高财务数据提取的效率和准确性。
学术研究
科学论文解析
提取科学论文中的章节标题、图表和参考文献。
辅助研究人员快速获取论文结构信息。
法律文件处理
合同条款识别
自动标记法律文件中的条款、定义和签名区域。
加速法律文档审查流程。