语言:
许可证: mit
标签:
- 目标检测
- 视觉
- 训练生成
- DocLayNet
- COCO
- PDF
- IBM
- 财务报告
- 金融
- 手册
- 科学论文
- 科学
- 法律
- 法规
- 专利
- 政府招标
- 目标检测
- 图像分割
- 标记分类
推理: false
数据集:
- pierreguillou/DocLayNet-base
指标:
模型索引:
- 名称: layout-xlm-base-finetuned-with-DocLayNet-base-at-linelevel-ml384
结果:
- 任务:
名称: 标记分类
类型: 标记分类
指标:
- 名称: F1值
类型: F1值
值: 0.7336
- 名称: 准确率
类型: 准确率
值: 0.9373
文档理解模型(基于LayoutXLM基础模型在DocLayNet基础数据集上微调至行级别)
此模型是基于microsoft/layoutxlm-base在DocLayNet基础数据集上微调的版本。在评估集上取得了以下结果:
- 损失: 0.2364
- 精确率: 0.7260
- 召回率: 0.7415
- F1值: 0.7336
- 准确率: 0.9373
参考文献
博客文章
笔记(段落级别)
笔记(行级别)
应用
您可以在Hugging Face Spaces上测试此模型:行级别文档理解推理应用(v2)。

DocLayNet数据集
DocLayNet数据集(IBM)提供了80863个独特页面的逐页布局分割真实标注,使用边界框标注了6个文档类别中的11个不同类别标签。
目前,该数据集可通过直接链接或Hugging Face数据集库下载:
论文:DocLayNet: A Large Human-Annotated Dataset for Document-Layout Analysis(2022年6月2日)
模型描述
该模型在384个标记块,带128个标记重叠的行级别上进行了微调。因此,模型训练时使用了数据集中所有页面的布局和文本数据。
在推理时,通过计算最佳概率为每个行边界框分配标签。
推理
参见笔记:文档AI | 使用文档理解模型(LayoutXLM基础模型在DocLayNet数据集上微调)的行级别推理
训练和评估数据
参见笔记:文档AI | 在任意语言行级别(384个标记块,带重叠)微调LayoutXLM基础模型于DocLayNet基础数据集
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率: 2e-05
- 训练批次大小: 8
- 评估批次大小: 16
- 随机种子: 42
- 优化器: Adam,betas=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型: 线性
- 学习率预热比例: 0.1
- 训练轮数: 3
- 混合精度训练: Native AMP
训练结果
训练损失 |
轮次 |
步数 |
准确率 |
F1值 |
验证损失 |
精确率 |
召回率 |
无记录 |
0.12 |
300 |
0.8413 |
0.1311 |
0.5185 |
0.1437 |
0.1205 |
0.9231 |
0.25 |
600 |
0.8751 |
0.5031 |
0.4108 |
0.4637 |
0.5498 |
0.9231 |
0.37 |
900 |
0.8887 |
0.5206 |
0.3911 |
0.5076 |
0.5343 |
0.369 |
0.5 |
1200 |
0.8724 |
0.5365 |
0.4118 |
0.5094 |
0.5667 |
0.2737 |
0.62 |
1500 |
0.8960 |
0.6033 |
0.3328 |
0.6046 |
0.6020 |
0.2737 |
0.75 |
1800 |
0.9186 |
0.6404 |
0.2984 |
0.6062 |
0.6787 |
0.2542 |
0.87 |
2100 |
0.9163 |
0.6593 |
0.3115 |
0.6324 |
0.6887 |
0.2542 |
1.0 |
2400 |
0.9198 |
0.6537 |
0.2878 |
0.6160 |
0.6962 |
0.1938 |
1.12 |
2700 |
0.9165 |
0.6752 |
0.3414 |
0.6673 |
0.6833 |
0.1581 |
1.25 |
3000 |
0.9193 |
0.6871 |
0.3611 |
0.6868 |
0.6875 |
0.1581 |
1.37 |
3300 |
0.9256 |
0.6822 |
0.2763 |
0.6988 |
0.6663 |
0.1428 |
1.5 |
|
|
|
|
|
|