🚀 PP-DocBlockLayout
PP-DocBlockLayout 是一个布局块定位模型,它基于自建数据集进行训练,该数据集涵盖了中英文论文、PPT、多布局杂志、合同、书籍、考试试卷、古籍和研究报告等多种文档类型。此模型使用 RT-DETR-L 进行训练,可有效识别文档中的布局区域。
🚀 快速开始
📦 安装指南
1. 安装 PaddlePaddle
请参考以下命令,使用 pip 安装 PaddlePaddle:
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
python -m pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
python -m pip install paddlepaddle==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/
PaddlePaddle 安装详情请参考 PaddlePaddle 官方网站。
2. 安装 PaddleOCR
从 PyPI 安装最新版本的 PaddleOCR 推理包:
python -m pip install paddleocr
💻 使用示例
基础用法
你可以使用单条命令快速体验模型功能:
paddleocr layout_detection --model_name PP-DocBlockLayout -i https://cdn-uploads.huggingface.co/production/uploads/63d7b8ee07cd1aa3c49a2026/SCL4KLVcaUKkinua_bTec.png
高级用法
你也可以将 LayoutDetection 模块的模型推理集成到你的项目中。在运行以下代码之前,请将示例图像下载到本地。
from paddleocr import LayoutDetection
model = LayoutDetection(model_name="PP-DocBlockLayout")
output = model.predict("SCL4KLVcaUKkinua_bTec.png", batch_size=1, layout_nms=True)
for res in output:
res.print()
res.save_to_img(save_path="./output/")
res.save_to_json(save_path="./output/res.json")
运行后,得到的结果如下:
{'res': {'input_path': '/root/.paddlex/predict_input/SCL4KLVcaUKkinua_bTec.png', 'page_index': None, 'boxes': [{'cls_id': 0, 'label': 'Region', 'score': 0.9768685698509216, 'coordinate': [31.313992, 298.04843, 479.92798, 1994.14]}, {'cls_id': 0, 'label': 'Region', 'score': 0.9728955626487732, 'coordinate': [648.478, 1233.5554, 1552.8765, 1992.712]}, {'cls_id': 0, 'label': 'Region', 'score': 0.9725626707077026, 'coordinate': [647.51337, 295.63956, 1550.7095, 1181.5878]}, {'cls_id': 0, 'label': 'Region', 'score': 0.9079533219337463, 'coordinate': [644.75916, 59.31064, 1468.8861, 264.68124]}, {'cls_id': 0, 'label': 'Region', 'score': 0.8413463234901428, 'coordinate': [31.890125, 60.103912, 470.73123, 284.72952]}]}}
可视化图像如下:

使用命令和参数说明详情请参考 文档。
📚 详细文档
属性 |
详情 |
模型类型 |
布局块定位模型 |
训练数据 |
自建数据集,包含中英文论文、PPT、多布局杂志、合同、书籍、考试试卷、古籍和研究报告等 |
模型精度
模型 |
mAP(0.5) (%) |
PP-DocBlockLayout |
95.9 |
注意:上述精度指标的评估集为自建版本子区域检测数据集,包含中英文论文、杂志、报纸、研究报告、PPT、试卷和教科书等 1000 张文档类型图片。
🔗 链接
📄 许可证
本项目采用 Apache-2.0 许可证。