OmniParser-v2.0开源屏幕解析工具 - 免费将UI截图转为结构化格式

首页

Omniparser V2.0

由 microsoft 开发

OmniParser是一款通用屏幕解析工具，能够将UI截图解释/转换为结构化格式，以提升基于LLM的UI代理性能。

图像生成文本

Transformers

开源协议:MIT #UI元素解析 #低延迟处理 #多模态代理

下载量 6,729

发布时间 : 2/12/2025

模型简介

OmniParser设计用于将非结构化截图图像转换为结构化元素列表，包括可交互区域位置及图标潜在功能描述。适用于各类截图（含PC和手机）及多种应用程序场景。

模型特点

高效解析

相比V1延迟降低60%，A100上0.6秒/帧，单卡4090上0.8秒。

大规模数据集

训练数据集包括可交互图标检测数据集和图标描述数据集，规模更大且更干净。

强劲性能

在ScreenSpot Pro上达到39.6的平均准确率。

多模型支持

开箱即支持OpenAI、DeepSeek、Qwen或Anthropic Computer Use等多种大语言模型。

模型能力

UI截图解析

可交互区域检测

图标功能描述

结构化数据转换

使用案例

UI代理开发

基于LLM的GUI代理

通过OmniParser+自选视觉模型控制Windows 11虚拟机。

提升代理对UI的理解和操作能力

自动化测试

UI元素检测

自动检测和描述应用程序中的可交互元素。

提高测试覆盖率和效率

🚀 OmniParser - 通用屏幕解析工具

OmniParser 是一款通用的屏幕解析工具，它能够将 UI 截图解释并转换为结构化格式，从而提升现有的基于大语言模型（LLM）的 UI 代理的性能。

📢 [GitHub 仓库] [OmniParser V2 博客文章] Huggingface 演示

🚀 快速开始

OmniParser 旨在将非结构化的截图图像转换为结构化的元素列表，其中包括可交互区域的位置以及图标潜在功能的描述。

✨ 主要特性

模型概述

OmniParser 是一个通用的屏幕解析工具，可将 UI 截图解释/转换为结构化格式，以改进现有的基于大语言模型的 UI 代理。训练数据集包括：

一个可交互图标检测数据集，该数据集从流行的网页中精心挑选，并进行了自动标注，以突出可点击和可操作的区域。
一个图标描述数据集，旨在将每个 UI 元素与其相应的功能关联起来。

此模型中心分别包含在上述数据集上微调后的 YOLOv8 版本和 Florence - 2 基础模型。有关所使用的模型和微调的更多详细信息，请参考论文。

V2 版本新特性

更大更干净的图标字幕 + 定位数据集：提供了更丰富和准确的数据支持。
延迟显著降低：与 V1 相比，延迟改善了 60%。在 A100 上平均延迟为 0.6 秒/帧，在单张 4090 上为 0.8 秒。
强大的性能表现：在 ScreenSpot Pro 上的平均准确率达到 39.6。
单一工具控制：你的代理只需要一个工具：OmniTool。使用 OmniParser + 你选择的视觉模型来控制 Windows 11 虚拟机。OmniTool 支持以下开箱即用的大语言模型 - OpenAI (4o/o1/o3 - mini)、DeepSeek (R1)、Qwen (2.5VL) 或 Anthropic Computer Use。详情请查看我们的 GitHub 仓库。

📚 详细文档

负责任的人工智能考量

预期用途

OmniParser 旨在将非结构化的截图图像转换为结构化的元素列表，包括可交互区域的位置和图标潜在功能的描述。
OmniParser 适用于用户已经接受过负责任的分析方法培训并需要进行批判性推理的场景。OmniParser 能够从截图中提取信息，但需要人工对其输出进行判断。
OmniParser 可用于各种截图，包括 PC 和手机的截图，以及各种应用程序的截图。

局限性

OmniParser 旨在忠实地将截图图像转换为可交互区域和屏幕语义的结构化元素，但其不会检测输入中的有害内容（就像用户可以自由决定任何大语言模型的输入一样），因此用户应提供无害的输入。
虽然 OmniParser 仅将截图图像转换为文本，但它可用于构建基于大语言模型的可操作 GUI 代理。在使用 OmniParser 开发和操作代理时，开发人员需要承担责任并遵循常见的安全标准。