P

Pix2struct Infographics Vqa Large

由 google 开发
Pix2Struct是一种图像编码器-文本解码器模型,通过多任务训练处理视觉语言理解任务,特别针对高分辨率信息图表的视觉问答进行了优化。
下载量 108
发布时间 : 3/21/2023
模型介绍
内容详情
替代品

模型简介

该模型是一个纯视觉语言理解的预训练图像到文本模型,可微调用于包含视觉语境语言的任务。通过解析网页截图掩码为简化HTML进行预训练,支持OCR、语言建模、图像描述等多种功能。

模型特点

多任务预训练
通过图像-文本对进行多任务训练,涵盖图像描述生成和视觉问答等任务
可变分辨率输入
支持可变分辨率输入表示,能处理不同尺寸的视觉输入
跨领域能力
在文档、插图、用户界面和自然图像四大领域的多项任务中表现优异

模型能力

视觉问答
图像描述生成
OCR识别
语言建模
跨模态理解

使用案例

教育
图解教材理解
帮助学生理解带图解的教科书内容
可准确回答关于教材插图的复杂问题
网页分析
网页截图解析
解析网页截图中的内容和结构
可将网页视觉元素转换为结构化HTML