P

Pix2struct Docvqa Large

由 google 开发
Pix2Struct是基于图像编码器-文本解码器架构的视觉语言模型,专门针对文档视觉问答任务进行了微调
下载量 984
发布时间 : 3/21/2023
模型介绍
内容详情
替代品

模型简介

该模型通过解析网页截图等视觉语言数据进行预训练,可处理包含文本和图像的复杂文档,适用于文档理解、视觉问答等多种任务

模型特点

多模态理解能力
能同时处理图像和文本信息,理解文档中的视觉语言内容
跨领域适应性
在文档、插图、用户界面和自然图像四大领域表现优异
创新预训练策略
通过解析网页截图掩码为简化HTML进行预训练,获得丰富的视觉语言理解能力

模型能力

文档视觉问答
图像描述生成
跨模态信息理解
多语言文档处理

使用案例

文档处理
扫描文档问答
对扫描的PDF或图像文档进行内容理解和问答
在文档类视觉问答任务中达到先进水平
教育辅助
教科书内容理解
解析带图解的教科书内容并回答相关问题