D

Dit Base Layout Detection

由 cmarkea 开发
基于microsoft/dit-base微调的文档图像布局检测模型,可识别11类文档元素
下载量 704
发布时间 : 7/18/2024
模型介绍
内容详情
替代品

模型简介

该模型可从文档图像中提取不同布局元素(如文本、图片、标题、脚注等),特别适合处理需要导入开放域问答系统(ODQA)的文档集。

模型特点

多类别文档元素识别
可识别11类文档元素,包括图片说明、脚注、公式、列表项、页眉页脚等
基于DocLayNet微调
在DocLayNet数据集上微调,专门针对文档布局分析任务优化
双重评估指标
同时支持语义分割和目标检测两种评估方式,提供全面的性能评估

模型能力

文档图像分析
布局元素识别
语义分割
目标检测

使用案例

文档处理
开放域问答系统文档预处理
为ODQA系统准备文档时自动识别和分类文档中的不同元素
提高文档结构化程度,增强问答系统理解能力
文档数字化
将扫描文档转换为结构化数字格式时自动识别各区域类型
提升文档数字化效率和准确性