P

Pix2struct Screen2words Large

由 google 开发
基于Pix2Struct架构的大规模视觉语言模型,专为UI界面生成功能描述而微调
下载量 176
发布时间 : 3/21/2023
模型介绍
内容详情
替代品

模型简介

该模型是一个图像编码器-文本解码器结构,通过解析网页截图等视觉元素生成文本描述,特别优化用于用户界面功能描述生成

模型特点

多模态理解
能同时处理视觉和语言输入,理解图像中的文本和视觉元素
跨领域应用
在文档、插图、用户界面和自然图像四大领域表现优异
灵活输入处理
支持可变分辨率输入和视觉语言提示直接渲染在图像上

模型能力

UI界面功能描述生成
网页截图解析
视觉问答
多语言图像描述

使用案例

用户界面
移动应用界面描述
为移动应用截图生成功能描述
可准确识别按钮、表单等UI元素并生成说明
网页分析
网页结构解析
解析网页截图生成简化HTML结构
能识别网页中的视觉元素及其层级关系