Layout Xlm Base Finetuned With DocLayNet Base At Paragraphlevel Ml512
模型简介
这是一个多语言文档理解模型,能够识别和分析PDF文档中的段落级别元素,如标题、文本、表格、图片等。
模型特点
段落级文档理解
能够识别和分析文档中的段落级别元素,包括标题、文本、表格、图片等11种不同类型
多语言支持
支持英语、德语、法语和日语等多种语言的文档分析
高准确率
在DocLayNet测试集上取得了86.55%的段落准确率和96.93%的标记准确率
模型能力
文档布局分析
段落分类
多语言文档处理
PDF内容理解
使用案例
金融文档处理
财务报告分析
自动识别财务报告中的不同部分,如表格、文本和标题
准确率高达90%以上
法律文档处理
法律条文解析
识别法律文档中的章节、条款和注释
章节标题识别准确率83.16%
科学文献处理
科学论文解析
识别论文中的公式和图表
公式识别准确率95.33%
🚀 文档理解模型(在DocLayNet基础数据集上按段落级别微调LayoutXLM基础模型)
该模型是基于 microsoft/layoutxlm-base 模型,使用 DocLayNet base 数据集进行微调得到的。在评估集上,该模型取得了以下结果:
- 损失值:0.1796
- 精确率:0.8062
- 召回率:0.7441
- F1值:0.7739
- 标记准确率:0.9693
- 段落准确率:0.8655
🚀 快速开始
本模型可用于文档理解任务,特别是段落级别的文档布局分析。你可以通过以下方式快速体验模型:
- 使用Hugging Face Spaces中的应用程序进行测试。
- 运行对应的Jupyter Notebook进行推理。
✨ 主要特性
- 多语言支持:支持多种语言的文档理解。
- 段落级分析:能够对文档进行段落级别的布局分析。
- 高精度:在评估集上取得了较高的准确率和F1值。
📚 详细文档
段落级准确率
- 段落准确率:86.55%
- 按标签分类的准确率
- 标题说明:63.76%
- 脚注:31.91%
- 公式:95.33%
- 列表项:79.31%
- 页面页脚:99.51%
- 页面页眉:88.75%
- 图片:90.91%
- 章节标题:83.16%
- 表格:68.25%
- 文本:91.37%
- 标题:50.0%
参考资料
博客文章
- Layout XLM基础模型
- (2023年3月31日) Document AI | 使用LayoutXLM基础模型进行段落级文档理解的推理应用和微调笔记本
- (2023年3月25日) Document AI | 用于比较行级文档理解LiLT和LayoutXLM(基础)模型的应用程序
- (2023年3月5日) Document AI | 使用LayoutXLM基础模型进行行级文档理解的推理应用和微调笔记本
- LiLT基础模型 - (2023年2月16日) Document AI | 用于段落级文档理解的推理应用和微调笔记本 - (2023年2月14日) Document AI | 用于行级文档理解的推理应用 - (2023年2月10日) Document AI | 使用LiLT、Tesseract和DocLayNet数据集的行级文档理解模型 - (2023年1月31日) Document AI | DocLayNet图像查看器应用程序 - (2023年1月27日) Document AI | 处理DocLayNet数据集以供Hugging Face中心的布局模型使用(微调、推理)
笔记本(段落级别)
- Layout XLM基础模型
- LiLT基础模型
笔记本(行级别)
- Layout XLM基础模型
- LiLT基础模型
应用程序
你可以使用Hugging Face Spaces中的这个应用程序测试该模型:段落级文档理解推理应用程序(v2)。
你也可以运行对应的笔记本:Document AI | 使用文档理解模型(在DocLayNet数据集上微调的LayoutXLM基础模型)进行段落级推理应用
DocLayNet数据集
DocLayNet数据集(IBM)为来自6个文档类别的80863个唯一页面,使用边界框为11个不同的类别标签提供了逐页布局分割的真实标注。
到目前为止,该数据集可以通过直接链接下载,也可以从Hugging Face数据集库获取:
- 直接链接:doclaynet_core.zip(28 GiB),doclaynet_extra.zip(7.5 GiB)
- Hugging Face数据集库:数据集DocLayNet
论文:DocLayNet: A Large Human-Annotated Dataset for Document-Layout Analysis(2022年6月2日)
模型描述
该模型在段落级别,以512个标记块且重叠128个标记的方式进行微调。因此,模型使用了数据集中所有页面的布局和文本数据进行训练。
在推理时,通过计算最佳概率为每个段落边界框分配标签。
推理
请参考笔记本:Document AI | 使用文档理解模型(在DocLayNet数据集上微调的LayoutXLM基础模型)进行段落级推理
训练和评估数据
请参考笔记本:Document AI | 在任何语言的DocLayNet基础数据集上按段落级别(512个标记块,有重叠)微调LayoutXLM基础模型
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率:2e-05
- 训练批次大小:8
- 评估批次大小:16
- 随机种子:42
- 优化器:Adam,β值=(0.9, 0.999),ε值=1e-08
- 学习率调度器类型:线性
- 学习率调度器热身比例:0.1
- 训练轮数:4
- 混合精度训练:原生自动混合精度(Native AMP)
训练结果
训练损失 | 轮数 | 步数 | 准确率 | F1值 | 验证损失 | 精确率 | 召回率 |
---|---|---|---|---|---|---|---|
无记录 | 0.11 | 200 | 0.8842 | 0.1066 | 0.4428 | 0.1154 | 0.0991 |
无记录 | 0.21 | 400 | 0.9243 | 0.4440 | 0.3040 | 0.4548 | 0.4336 |
0.7241 | 0.32 | 600 | 0.9359 | 0.5544 | 0.2265 | 0.5330 | 0.5775 |
0.7241 | 0.43 | 800 | 0.9479 | 0.6015 | 0.2140 | 0.6013 | 0.6017 |
0.2343 | 0.53 | 1000 | 0.9402 | 0.6132 | 0.2852 | 0.6642 | 0.5695 |
0.2343 | 0.64 | 1200 | 0.9540 | 0.6604 | 0.1694 | 0.6565 | 0.6644 |
0.2343 | 0.75 | 1400 | 0.9354 | 0.6198 | 0.2308 | 0.5119 | 0.7854 |
0.1913 | 0.85 | 1600 | 0.9594 | 0.6590 | 0.1601 | 0.7190 | 0.6082 |
0.1913 | 0.96 | 1800 | 0.9541 | 0.6597 | 0.1671 | 0.5790 | 0.7664 |
0.1346 | 1.07 | 2000 | 0.9612 | 0.6986 | 0.1580 | 0.6838 | 0.7140 |
0.1346 | 1.17 | 2200 | 0.9597 | 0.6897 | 0.1423 | 0.6618 | 0.7200 |
0.1346 | 1.28 | 2400 | 0.9663 | 0.6980 | 0.1580 | 0.7490 | 0.6535 |
0.098 | 1.39 | 2600 | 0.9616 | 0.6800 | 0.1394 | 0.7044 | 0.6573 |
0.098 | 1.49 | 2800 | 0.9686 | 0.7251 | 0.1756 | 0.6893 | 0.7649 |
0.0999 | 1.6 | 3000 | 0.9636 | 0.6985 | 0.1542 | 0.7127 | 0.6848 |
0.0999 | 1.71 | 3200 | 0.9670 | 0.7097 | 0.1187 | 0.7538 | 0.6705 |
0.0999 | 1.81 | 3400 | 0.9585 | 0.7427 | 0.1793 | 0.7602 | 0.7260 |
0.0972 | 1.92 | 3600 | 0.9621 | 0.7189 | 0.1836 | 0.7576 | 0.6839 |
0.0972 | 2.03 | 3800 | 0.9642 | 0.7189 | 0.1465 | 0.7388 | 0.6999 |
0.0662 | 2.13 | 4000 | 0.9691 | 0.7450 | 0.1409 | 0.7615 | 0.7292 |
0.0662 | 2.24 | 4200 | 0.9615 | 0.7432 | 0.1720 | 0.7435 | 0.7429 |
0.0662 | 2.35 | 4400 | 0.9667 | 0.7338 | 0.1440 | 0.7469 | 0.7212 |
0.0581 | 2.45 | 4600 | 0.9657 | 0.7135 | 0.1928 | 0.7458 | 0.6839 |
0.0581 | 2.56 | 4800 | 0.9692 | 0.7378 | 0.1645 | 0.7467 | 0.7292 |
0.0538 | 2.67 | 5000 | 0.9656 | 0.7619 | 0.1517 | 0.7700 | 0.7541 |
0.0538 | 2.77 | 5200 | 0.9684 | 0.7728 | 0.1676 | 0.8227 | 0.7286 |
0.0538 | 2.88 | 5400 | 0.9725 | 0.7608 | 0.1277 | 0.7865 | 0.7367 |
0.0432 | 2.99 | 5600 | 0.9693 | 0.7784 | 0.1532 | 0.7891 | 0.7681 |
0.0432 | 3.09 | 5800 | 0.9692 | 0.7783 | 0.1701 | 0.8067 | 0.7519 |
0.0272 | 3.2 | 6000 | 0.9732 | 0.7798 | 0.1159 | 0.8072 | 0.7542 |
0.0272 | 3.3 | 6200 | 0.9720 | 0.7797 | 0.1835 | 0.7926 | 0.7672 |
0.0272 | 3.41 | 6400 | 0.9730 | 0.7894 | 0.1481 | 0.8183 | 0.7624 |
0.0274 | 3.52 | 6600 | 0.9686 | 0.7655 | 0.1552 | 0.7958 | 0.7373 |
0.0274 | 3.62 | 6800 | 0.9698 | 0.7724 | 0.1523 | 0.8068 | 0.7407 |
0.0246 | 3.73 | 7000 | 0.9691 | 0.7720 | 0.1673 | 0.7960 | 0.7493 |
0.0246 | 3.84 | 7200 | 0.9688 | 0.7695 | 0.1333 | 0.7986 | 0.7424 |
0.0246 | 3.94 | 7400 | 0.1796 | 0.8062 | 0.7441 | 0.7739 | 0.9693 |
框架版本
- Transformers 4.27.3
- Pytorch 1.10.0+cu111
- Datasets 2.10.1
- Tokenizers 0.13.2
其他模型
- 行级别
- 文档理解模型(在DocLayNet基础数据集上按行级别微调LiLT基础模型)(准确率 | 标记:85.84% - 行:91.97%)
- 文档理解模型(在DocLayNet基础数据集上按行级别微调LayoutXLM基础模型)(准确率 | 标记:93.73% - 行:...)
- 段落级别
- 文档理解模型(在DocLayNet基础数据集上按段落级别微调LiLT基础模型)(准确率 | 标记:86.34% - 段落:68.15%)
- 文档理解模型(在DocLayNet基础数据集上按段落级别微调LayoutXLM基础模型)(准确率 | 标记:96.93% - 段落:86.55%)
📄 许可证
本项目采用MIT许可证。
Table Transformer Structure Recognition
MIT
基于PubTables1M数据集训练的表格变换器模型,用于从非结构化文档中提取表格结构
文字识别
Transformers

T
microsoft
1.2M
186
Trocr Small Handwritten
TrOCR是一个基于Transformer的光学字符识别模型,专门用于手写文本图像的识别。
文字识别
Transformers

T
microsoft
517.96k
45
Table Transformer Structure Recognition V1.1 All
MIT
基于Transformer的表格结构识别模型,用于检测文档中的表格结构
文字识别
Transformers

T
microsoft
395.03k
70
Trocr Large Printed
基于Transformer的光学字符识别模型,适用于单行印刷体文本识别
文字识别
Transformers

T
microsoft
295.59k
162
Texify
Texify 是一个 OCR 工具,专门用于将公式图片和文本转换为 LaTeX 格式。
文字识别
Transformers

T
vikp
206.53k
15
Trocr Base Printed
TrOCR是基于Transformer的光学字符识别模型,专为单行文本图像识别设计,采用编码器-解码器架构
文字识别
Transformers

T
microsoft
184.84k
169
Manga Ocr Base
Apache-2.0
专为日语文本设计的光学字符识别工具,主要针对日本漫画场景优化。
文字识别
Transformers 日语

M
kha-white
130.36k
145
Trocr Large Handwritten
TrOCR是基于Transformer的光学字符识别模型,专为手写文本识别设计,在IAM数据集上进行了微调。
文字识别
Transformers

T
microsoft
59.17k
115
Trocr Small Printed
TrOCR是一个基于Transformer的光学字符识别模型,适用于单行文本图像的OCR任务。
文字识别
Transformers

T
microsoft
20.88k
40
Lilt Roberta En Base
MIT
语言无关版式变换器(LiLT)通过将预训练的RoBERTa(英文)与预训练的语言无关版式变换器(LiLT)拼接,为任何语言提供类似LayoutLM的模型。
文字识别
Transformers

L
SCUT-DLVCLab
12.05k
19
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98
智启未来,您的人工智能解决方案智库
简体中文