L

Lilt Xlm Roberta Base Finetuned With DocLayNet Base At Paragraphlevel Ml512

由 pierreguillou 开发
这是一个文档理解模型,专门用于分析文档布局和内容,在段落级别进行标记分类任务。
下载量 126
发布时间 : 2/15/2023
模型介绍
内容详情
替代品

模型简介

该模型基于LiLT架构,使用DocLayNet基础数据集在段落级别进行微调,能够识别文档中的不同段落类型(如标题、文本、表格等)。

模型特点

多语言支持
模型支持多种语言文档的理解和分析
段落级别分析
能够识别文档中不同段落的功能类型
高精度分类
在测试集上达到86.34%的F1值

模型能力

文档布局分析
段落类型识别
多语言文档处理
标记分类

使用案例

文档处理
财务报告分析
自动识别财务报告中的不同部分(标题、正文、表格等)
准确率86.34%
科学论文处理
分类科学论文中的公式、图表和正文内容
公式识别准确率97.33%
法律文档处理
法律条文解析
识别法律文档中的章节标题和正文内容