OmniParser开源屏幕解析工具 - 免费将UI截图转换为结构化格式

首页

Omniparser

由 microsoft 开发

OmniParser是一款通用屏幕解析工具，能够将用户界面截图解释/转换为结构化格式，以改进现有基于大语言模型（LLM）的UI代理。

图像生成文本

Transformers

开源协议:MIT #屏幕解析 #UI元素检测 #图标功能描述

下载量 847

发布时间 : 10/7/2024

模型简介

OmniParser旨在将非结构化的截图图像转换为结构化元素列表，包括可交互区域位置和图标潜在功能的描述。适用于PC和手机界面，以及不同应用程序的截图解析。

模型特点

通用屏幕解析

能够解析各种截图，包括PC和手机界面，以及不同应用程序的截图。

结构化输出

将非结构化的截图图像转换为结构化元素列表，包括可交互区域位置和图标潜在功能的描述。

多模型组合

包含微调的YOLOv8版本用于可交互图标检测，以及BLIP-2模型用于图标描述。

模型能力

用户界面截图解析

可交互区域检测

图标功能描述

结构化数据转换

使用案例

UI代理增强

基于LLM的GUI代理

改进现有基于大语言模型的UI代理，通过解析截图提供更准确的界面信息。

提高代理对用户界面的理解和操作准确性。

无障碍技术

屏幕阅读器增强

为视障用户提供更详细的界面元素描述。

改善视障用户的数字可访问性体验。

🚀 转换器（transformers）

OmniParser 是一款通用屏幕解析工具，可将 UI 截图转换为结构化格式，助力提升基于大语言模型（LLM）的 UI 智能体性能。它能处理多种类型的截图，广泛适用于不同应用场景。

🚀 快速开始

📢 [项目页面] [博客文章] [演示]

✨ 主要特性

通用屏幕解析：能够将 UI 截图解释/转换为结构化格式，为现有的基于大语言模型（LLM）的 UI 智能体提供支持。
多数据集训练：训练数据集包括从流行网页整理并自动标注的可交互图标检测数据集，以及将每个 UI 元素与其对应功能关联的图标描述数据集。
模型微调：模型中心分别包含在上述数据集上微调的 YOLOv8 和 BLIP - 2 模型。

📚 详细文档

模型概述

OmniParser 是一个通用的屏幕解析工具，它可以将 UI 截图转换为结构化格式，以改进现有的基于大语言模型（LLM）的 UI 智能体。训练数据集包括：1）一个可交互图标检测数据集，该数据集从流行网页中整理而来，并自动标注以突出可点击和可操作区域；2）一个图标描述数据集，旨在将每个 UI 元素与其相应功能关联起来。

这个模型中心分别包含在上述数据集上微调的 YOLOv8 和 BLIP - 2 模型。有关所使用模型和微调的更多详细信息，请参考论文。

负责任的人工智能考量

预期用途

结构化转换：OmniParser 旨在能够将非结构化的截图图像转换为结构化的元素列表，包括可交互区域的位置和图标潜在功能的说明。
专业使用场景：OmniParser 旨在用于用户已经接受过负责任分析方法培训并需要批判性推理的环境中。OmniParser 能够从截图中提取信息，但需要人工对其输出进行判断。
多平台适用性：OmniParser 旨在用于各种截图，包括 PC 和手机截图，以及各种应用程序的截图。

局限性

有害内容检测缺失：OmniParser 旨在忠实地将截图图像转换为可交互区域的结构化元素和屏幕语义，它不会检测输入中的有害内容（就像用户可以自由决定任何大语言模型的输入一样），因此用户需要提供无害的输入。
安全责任：虽然 OmniParser 只是将截图图像转换为文本，但它可用于构建基于大语言模型的可操作 GUI 智能体。在使用 OmniParser 开发和操作智能体时，开发人员需要承担责任并遵循常见的安全标准。
敏感属性推断问题：对于 OmniPaser - BLIP2，它可能会错误地推断图标图像中个人的性别或其他敏感属性（如种族、宗教等）。敏感属性的推断可能依赖于刻板印象和概括，而不是关于特定个人的信息，并且对于边缘化人群更有可能出现错误。错误的推断可能会导致重大的身体或心理伤害，或者限制、侵犯或损害个人实现其人权的能力。因此，不建议在任何类似工作场所的使用场景中使用 OmniParser。