L

Layoutlmv2 Base Uncased Finetuned Docvqa

由 hugginglaoda 开发
基于LayoutLMv2架构的文档视觉问答模型,专门针对文档理解任务进行微调
下载量 16
发布时间 : 4/1/2023
模型介绍
内容详情
替代品

模型简介

该模型是LayoutLMv2基础版在文档视觉问答(DocVQA)任务上的微调版本,能够理解文档布局和内容,回答与文档相关的问题

模型特点

多模态理解能力
结合文本内容和视觉布局信息进行文档理解
文档结构感知
能够识别并利用文档中的表格、段落等结构信息
端到端问答
直接从文档图像中提取信息回答问题,无需中间OCR步骤

模型能力

文档视觉问答
文档理解
布局分析
文本定位

使用案例

文档处理
表单信息提取
从扫描的表单中提取特定字段信息
合同分析
回答关于合同条款的具体问题
教育
试卷自动批改
基于扫描试卷回答评分相关问题