L

Layout Xlm Base Finetuned With DocLayNet Base At Paragraphlevel Ml512

由 pierreguillou 开发
该模型是基于LayoutXLM基础模型在DocLayNet数据集上微调的版本,专门用于文档布局分析和段落级内容理解。
下载量 79
发布时间 : 3/25/2023

模型简介

这是一个多语言文档理解模型,能够识别和分析PDF文档中的段落级别元素,如标题、文本、表格、图片等。

模型特点

段落级文档理解
能够识别和分析文档中的段落级别元素,包括标题、文本、表格、图片等11种不同类型
多语言支持
支持英语、德语、法语和日语等多种语言的文档分析
高准确率
在DocLayNet测试集上取得了86.55%的段落准确率和96.93%的标记准确率

模型能力

文档布局分析
段落分类
多语言文档处理
PDF内容理解

使用案例

金融文档处理
财务报告分析
自动识别财务报告中的不同部分,如表格、文本和标题
准确率高达90%以上
法律文档处理
法律条文解析
识别法律文档中的章节、条款和注释
章节标题识别准确率83.16%
科学文献处理
科学论文解析
识别论文中的公式和图表
公式识别准确率95.33%
AIbase
智启未来,您的人工智能解决方案智库
简体中文