L

Layoutlmv2 Base Uncased Finetuned Docvqa

由 rogdevil 开发
该模型是基于Microsoft LayoutLMv2架构的文档视觉问答(VQA)专用模型,通过微调适应文档理解任务
下载量 16
发布时间 : 2/29/2024
模型介绍
内容详情
替代品

模型简介

专门用于处理文档图像中的视觉问答任务,能够理解文档布局结构和文本内容的关联性

模型特点

多模态理解能力
同时处理文档文本内容和视觉布局信息
文档结构感知
能够理解表格、表单等复杂文档结构
高效微调
基于预训练模型进行任务特定微调

模型能力

文档图像理解
视觉问答
文本定位
布局分析

使用案例

文档处理
表单信息提取
从扫描的表单文档中自动提取关键信息
发票处理
识别发票中的金额、日期等关键字段
教育
试卷自动批改
识别学生答卷中的手写或打印答案