语言:
许可证: mit
标签:
- 目标检测
- 视觉
- 训练生成
- DocLayNet
- COCO
- PDF
- IBM
- 财务报告
- 金融
- 手册
- 科学文章
- 科学
- 法律
- 法规
- 专利
- 政府招标
- 目标检测
- 图像分割
- 标记分类
推理: false
数据集:
- pierreguillou/DocLayNet-base
指标:
模型索引:
- 名称: lilt-xlm-roberta-base-finetuned-with-DocLayNet-base-at-paragraphlevel-ml512
结果:
- 任务:
名称: 标记分类
类型: 标记分类
指标:
- 名称: F1值
类型: f1
值: 0.8634
- 名称: 准确率
类型: 准确率
值: 0.8634
文档理解模型(基于DocLayNet基础数据在段落级别微调的LiLT基础模型)
此模型是基于nielsr/lilt-xlm-roberta-base使用DocLayNet基础数据集微调后的版本。
在评估集上取得了以下结果:
- 损失: 0.4104
- 精确度: 0.8634
- 召回率: 0.8634
- F1值: 0.8634
- 标记准确率: 0.8634
- 段落准确率: 0.6815
段落级别准确率
- 段落准确率: 68.15%
- 按标签准确率
- 标题: 22.82%
- 脚注: 0.0%
- 公式: 97.33%
- 列表项: 8.42%
- 页脚: 98.77%
- 页眉: 77.81%
- 图片: 39.16%
- 节标题: 76.17%
- 表格: 37.7%
- 文本: 86.78%
- 主标题: 0.0%


参考文献
博客文章
笔记本(段落级别)
笔记本(行级别)
应用
您可以在Hugging Face Spaces中测试此模型:段落级别文档理解的推理应用(v1)。

您也可以运行相应的笔记本:文档AI | 使用文档理解模型(基于DocLayNet数据集微调的LiLT)的段落级别推理应用
DocLayNet数据集
DocLayNet数据集(IBM)提供了80863个独特页面的逐页布局分割真实标注,使用边界框标注了11个不同的类别标签,涵盖6种文档类别。
目前,可以通过直接链接或Hugging Face数据集库下载该数据集:
论文: DocLayNet: A Large Human-Annotated Dataset for Document-Layout Analysis (2022年6月2日)
模型描述
该模型在**段落级别上以512个标记块(重叠128个标记)**进行了微调。因此,模型训练时使用了数据集中所有页面的布局和文本数据。
在推理时,通过计算最佳概率为每个段落边界框分配标签。
推理
参见笔记本: 文档AI | 使用文档理解模型(基于DocLayNet数据集微调的LiLT)的段落级别推理
训练和评估数据
参见笔记本: 文档AI | 在任意语言中以段落级别(512个标记块,重叠)微调LiLT于DocLayNet基础数据集
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率: 2e-05
- 训练批次大小: 8
- 评估批次大小: 16
- 随机种子: 42
- 优化器: Adam,参数为betas=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型: 线性
- 训练轮数: 1
- 混合精度训练: Native AMP
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
精确度 |
召回率 |
F1值 |
准确率 |
无日志 |
0.05 |
100 |
0.9875 |
0.6585 |
0.6585 |
0.6585 |
0.6585 |
无日志 |
0.11 |
200 |
0.7886 |
0.7551 |
0.7551 |
0.7551 |
0.7551 |
无日志 |
0.16 |
300 |
0.5894 |
0.8248 |
0.8248 |
0.8248 |
0.8248 |
无日志 |
0.21 |
400 |
0.4794 |
0.8396 |
0.8396 |
0.8396 |
0.8396 |
0.7446 |
0.27 |
500 |
0.3993 |
0.8703 |
0.8703 |
0.8703 |
0.8703 |
0.7446 |
0.32 |
600 |
0.3631 |
0.8857 |
0.8857 |
0.8857 |
0.8857 |
0.7446 |
0.37 |
700 |
0.4096 |
0.8630 |
0.8630 |
0.8630 |
0.8630 |
0.7446 |
0.43 |
800 |
0.4492 |
0.8528 |
0.8528 |
0.8528 |
0.8528 |
0.7446 |
0.48 |
900 |
0.3839 |
0.8834 |
0.8834 |
0.8834 |
0.8834 |
0.4464 |
0.53 |
1000 |
0.4365 |
0.8498 |
0.8498 |
0.8498 |
0.8498 |
0.4464 |
0.59 |
1100 |
0.3616 |
0.8812 |
0.8812 |
0.8812 |
0.8812 |
0.4464 |
0.64 |
1200 |
0.3949 |
0.8796 |
0.8796 |
0.8796 |
0.8796 |
0.4464 |
0.69 |
1300 |
0.4184 |
0.8613 |
0.8613 |
0.8613 |
0.8613 |
0.4464 |
0.75 |
1400 |
0.4130 |
0.8743 |
0.8743 |
0.8743 |
0.8743 |
0.3672 |
0.8 |
1500 |
0.4535 |
0.8289 |
0.8289 |
0.8289 |
0.8289 |
0.3672 |
0.85 |
1600 |
0.3681 |
0.8713 |
0.8713 |
0.8713 |
0.8713 |
0.3672 |
0.91 |
1700 |
0.3446 |
0.8857 |
0.8857 |
0.8857 |
0.8857 |
0.3672 |
0.96 |
1800 |
0.4104 |
0.8634 |
0.8634 |
0.8634 |
0.8634 |
框架版本
- Transformers 4.26.1
- Pytorch 1.13.1+cu116
- Datasets 2.9.0
- Tokenizers 0.13.2
其他模型