O

Omniparser

由 microsoft 开发
OmniParser是一款通用屏幕解析工具,能够将用户界面截图解释/转换为结构化格式,以改进现有基于大语言模型(LLM)的UI代理。
下载量 847
发布时间 : 10/7/2024
模型介绍
内容详情
替代品

模型简介

OmniParser旨在将非结构化的截图图像转换为结构化元素列表,包括可交互区域位置和图标潜在功能的描述。适用于PC和手机界面,以及不同应用程序的截图解析。

模型特点

通用屏幕解析
能够解析各种截图,包括PC和手机界面,以及不同应用程序的截图。
结构化输出
将非结构化的截图图像转换为结构化元素列表,包括可交互区域位置和图标潜在功能的描述。
多模型组合
包含微调的YOLOv8版本用于可交互图标检测,以及BLIP-2模型用于图标描述。

模型能力

用户界面截图解析
可交互区域检测
图标功能描述
结构化数据转换

使用案例

UI代理增强
基于LLM的GUI代理
改进现有基于大语言模型的UI代理,通过解析截图提供更准确的界面信息。
提高代理对用户界面的理解和操作准确性。
无障碍技术
屏幕阅读器增强
为视障用户提供更详细的界面元素描述。
改善视障用户的数字可访问性体验。