P

Pix2struct Large

由 google 开发
Pix2Struct是一个图像编码器-文本解码器模型,通过图像-文本对训练,适用于多种视觉语言任务
下载量 6,601
发布时间 : 3/22/2023
模型介绍
内容详情
替代品

模型简介

Pix2Struct是一个纯视觉语言理解的预训练图像到文本模型,可微调用于包含视觉语言的任务,支持图像描述生成、视觉问答等多种应用

模型特点

多领域适应性
在文档、插图、用户界面和自然图像四大领域九项任务中六项达到最先进水平
灵活输入整合
支持将语言提示直接渲染到输入图像上,实现更灵活的视觉语言输入整合
可变分辨率输入
引入可变分辨率输入表示,适应不同尺寸的输入图像

模型能力

图像描述生成
视觉问答
网页截图解析
文档理解
用户界面理解

使用案例

教育
教科书图解理解
解析教科书中的图解并生成描述
网页分析
网页截图解析
将网页截图转换为结构化HTML
用户界面
移动应用界面理解
解析移动应用界面中的按钮和表单元素