P

Pix2struct Ai2d Large

由 google 开发
Pix2Struct是一个基于视觉问答任务微调的大规模图像到文本模型,专门用于科学图表的视觉问答
下载量 28
发布时间 : 3/21/2023
模型介绍
内容详情
替代品

模型简介

Pix2Struct是一个图像编码器-文本解码器模型,通过图像-文本对训练,支持多种任务,包括图像描述生成和视觉问答。该版本专门针对科学图表(AI2D数据集)的视觉问答任务进行了微调。

模型特点

多任务支持
通过单一模型架构支持多种视觉语言任务,包括视觉问答和图像描述生成
HTML结构预训练
通过解析网页截图掩码为简化HTML进行预训练,有效学习视觉元素与文本的关联
可变分辨率输入
支持可变分辨率输入表示,适应不同尺寸的输入图像
灵活提示整合
问题等语言提示可直接渲染在输入图像上,实现更灵活的视觉语言输入整合

模型能力

科学图表理解
视觉问答
图像文本关联
多语言支持

使用案例

教育
科学教材图表问答
帮助学生理解科学教材中的复杂图表和图示
能准确回答图表中的标注内容问题
研究
科学论文图表分析
自动解析科研论文中的实验数据图表