Document Qa Model

D

Document Qa Model

由 lakshya-rawat 开发

基于LayoutLMv3-base微调的文档问答模型，能够利用OCR数据理解文档并回答相关问题。

文本生成图像

支持多种语言开源协议:Apache-2.0 #文档布局问答 #多语言OCR理解 #结构化信息提取

下载量 54

发布时间 : 4/19/2025

模型简介

该模型经过训练，能够利用OCR数据（通过PaddleOCR）理解文档，并准确回答与文档布局中结构化信息相关的问题。

模型特点

多语言支持

支持英语、西班牙语、法语、德语和意大利语的文档问答。

布局感知

能够理解文档的布局和结构，提高问答准确性。

OCR集成

结合PaddleOCR提取的文本和位置信息，增强文档理解能力。

模型能力

文档图像问答

文本信息提取

结构化查询回答

使用案例

文档处理

水电账单解析

从水电账单图像中提取并回答关于费用、日期等信息。

高准确率的费用和日期信息提取。

发票信息提取

从发票图像中提取供应商、金额和商品信息。

结构化输出供应商和金额信息。

🚀 文档问答模型

这是一个基于layoutlmv3-base的微调文档问答模型。它经过训练，能够利用OCR数据（通过PaddleOCR）理解文档，并准确回答与文档布局中的结构化信息相关的问题。

🚀 快速开始

本模型可直接用于对文档图像（如PDF、发票、水电费账单）进行问答，以及利用OCR和布局感知理解进行信息提取任务。

✨ 主要特性

基于layoutlmv3-base进行微调，能够理解文档并回答相关问题。
支持多种语言，包括英语、西班牙语、法语、德语和意大利语。
利用OCR数据（PaddleOCR）和布局感知理解，准确回答结构化信息问题。

📚 详细文档

模型详情

属性	详情
模型名称	`document-qa-model`
基础模型	microsoft/layoutlmv3-base
微调者	Lakshya Singh（独立贡献者）
支持语言	英语、西班牙语、法语、德语、意大利语
许可证	Apache - 2.0（继承自基础模型）
预期用途	从扫描文档中提取结构化查询的答案
资金情况	无资助，此项目独立完成

模型来源

仓库：Github链接
训练数据集：nielsr/docvqa_1200_examples的改编版本
模型指标：查看

使用场景

直接使用

本模型可用于以下场景：

对文档图像（PDF、发票、水电费账单）进行问答。
利用OCR和布局感知理解进行信息提取任务。

不适用场景

不适用于对话式问答。
不适用于没有经过OCR处理文本的图像。

训练详情

数据集

数据集包含：

水电费账单和文档的图像。
带有边界框的OCR数据（来自PaddleOCR）。
英语、西班牙语和中文的查询。
带有匹配分数和位置的答案范围。

训练过程

预处理：使用PaddleOCR提取标记、位置和结构。
模型：LayoutLMv3 - base
训练轮数：4
学习率调度：见下图

训练指标

F1分数（验证集）：
损失和学习率图表：

评估

使用的指标

F1分数
预测范围的匹配分数
与真实值的标记重叠

总结

该模型在文档式问答任务中表现良好，尤其适用于以下情况：

OCR结果结构清晰。
文档类型类似于水电费账单、发票和表单。

使用方法

本模型可在我的Github上获取。

📄 许可证

本模型使用Apache - 2.0许可证（继承自基础模型）。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24