P

Pix2struct Base

由 google 开发
Pix2Struct是一种图像编码器-文本解码器模型,通过多种任务的图像-文本对训练,包括图像描述和视觉问答。
下载量 6,390
发布时间 : 3/13/2023
模型介绍
内容详情
替代品

模型简介

Pix2Struct是一个纯视觉语言理解的预训练图像到文本模型,可微调用于包含视觉语言的任务。通过解析网页截图掩码为简化HTML进行预训练,适用于文档、插图、用户界面和自然图像等多种领域。

模型特点

多领域适用性
在文档、插图、用户界面和自然图像四大领域的九项任务中,六项达到最先进水平。
灵活的视觉语言整合
引入了可变分辨率输入表示和更灵活的视觉语言输入整合方式,问题等语言提示可直接渲染在输入图像上。
多样化预训练
通过解析网页截图掩码为简化HTML进行预训练,涵盖OCR、语言建模、图像描述等常见预训练信号。

模型能力

图像描述
视觉问答
文档理解
用户界面解析
自然图像理解

使用案例

教育
图解教科书理解
解析教科书中的图像和图表,生成相关描述或回答问题。
网页解析
网页截图解析
从网页截图中提取结构化信息,如表格、按钮等元素。
用户界面
移动应用界面理解
解析移动应用界面截图,识别按钮、表单等元素。