UGround开源GUI视觉定位模型 - 简洁配方训练，精准实现视觉定位

首页

Uground

由 osunlp 开发

UGround是通过简洁配方训练的强力GUI视觉定位模型，由俄亥俄州立大学NLP组与Orby AI合作完成。

图像生成文本

Safetensors

#GUI视觉定位 #多模态交互 #智能体控制

下载量 208

发布时间 : 8/2/2024

模型简介

UGround是一个专注于GUI视觉定位的多模态模型，能够精确定位用户界面中的各种元素，如文本、图标等。

模型特点

强大的GUI视觉定位能力

在ScreenSpot基准测试中表现出色，平均准确率达到73.3%

多平台支持

支持移动端、桌面端和网页端的GUI元素定位

简洁训练配方

采用高效的数据合成和训练方法，无需复杂架构

模型能力

GUI元素定位

多模态理解

跨平台界面分析

视觉-语言对齐

使用案例

自动化测试

界面元素检测

自动识别和定位用户界面中的各种元素

在ScreenSpot测试中达到82.8%的移动端文本定位准确率

智能助手

基于视觉的指令执行

帮助用户通过视觉界面完成操作

在智能体设置下达到81.4%的平均准确率

🚀 UGround（基于LLaVA的初始版本）

UGround是一个通过简单方法训练的强大GUI视觉定位模型。它解决了GUI视觉定位任务中的准确性和效率问题，为相关领域的研究和应用提供了有力支持。本项目由OSU NLP Group和Orby AI合作完成。

⚠️ 重要提示

我们已经基于Qwen2 - VL使用相同数据训练了更强的模型。建议使用这些模型以获得更好的性能，以及更便捷的训练、推理和部署体验。

radar

主页：https://osu-nlp-group.github.io/UGround/
代码仓库：https://github.com/OSU-NLP-Group/UGround
论文：https://arxiv.org/abs/2410.05243
演示：https://huggingface.co/spaces/orby-osu/UGround
联系人：Boyu Gou

📦 模型信息

属性	详情
模型类型	- Model - V1： - 初始UGround - UGround - V1 - 2B (Qwen2 - VL) - UGround - V1 - 7B (Qwen2 - VL) - UGround - V1 - 72B (Qwen2 - VL)
训练数据	训练数据

🚀 发布计划

[x] 模型权重
- [x] 初始版本（论文中使用的版本）
- [x] 基于Qwen2 - VL的V1版本（2B、7B、72B）
[x] 代码
- [x] UGround推理代码（初始版本和基于Qwen2 - VL的版本）
- [x] 离线实验（代码、结果和有用资源）
  - [x] ScreenSpot
  - [x] Multimodal - Mind2Web
  - [x] OmniAct
  - [x] Android控制
- [x] 在线实验
  - [x] Mind2Web - Live - SeeAct - V
  - [x] AndroidWorld - SeeAct - V
- [ ] 数据合成管道（即将推出）
[x] 训练数据（V1）
[x] 在线演示（HF Spaces）

✨ 主要结果

GUI视觉定位：ScreenSpot（标准设置）

定位模型	架构	SFT数据	移动文本	移动图标	桌面文本	桌面图标	网页文本	网页图标	平均值
GPT - 4			22.6	24.5	20.2	11.8	9.2	8.8	16.2
GPT - 4o			20.2	24.9	21.1	23.6	12.2	7.8	18.3
MiniGPT - v2	MiniGPT - v2		8.4	6.6	6.2	2.9	6.5	3.4	5.7
Groma	Groma		10.3	2.6	4.6	4.3	5.7	3.4	5.2
Fuyu	Fuyu		41.0	1.3	33.0	3.6	33.9	4.4	19.5
Qwen - VL	Qwen - VL		9.5	4.8	5.7	5.0	3.5	2.4	5.2
SeeClick	Qwen - VL	SeeClick	78.0	52.0	72.2	30.0	55.7	32.5	53.4
Qwen - GUI	Qwen - VL	GUICourse	52.4	10.9	45.9	5.7	43.0	13.6	28.6
UGround - V1	LLaVA - UGround - V1	UGround - V1	82.8	60.3	82.5	63.6	80.4	70.4	73.3
Qwen2 - VL	Qwen2 - VL		61.3	39.3	52.0	45.0	33.0	21.8	42.1
Auguvis - G - 7B	Qwen2 - VL	Aguvis - Stage - 1	88.3	78.2	88.1	70.7	85.7	74.8	81.0
Auguvis - 7B	Qwen2 - VL	Aguvis - Stage - 1&2	95.6	77.7	93.8	67.1	88.3	75.2	83.0
OS - Atlas - Base - 4B	InternVL	OS - Atlas	85.7	58.5	72.2	45.7	82.6	63.1	68.0
OS - Atlas - Base - 7B	Qwen2 - VL	OS - Atlas	93.0	72.9	91.8	62.9	90.9	74.3	81.0
ShowUI - G	ShowUI	ShowUI	91.6	69.0	81.8	59.0	83.0	65.5	75.0
ShowUI	ShowUI	ShowUI	92.3	75.5	76.3	61.1	81.7	63.6	75.1
Iris	Iris	SeeClick	85.3	64.2	86.7	57.5	82.6	71.2	74.6
Aria - UI	Aria	Aria - UI	92.3	73.8	93.3	64.3	86.5	76.2	81.1
UGround - V1 - 2B (Qwen2 - VL)	Qwen2 - VL	UGround - V1	89.4	72.0	88.7	65.7	81.3	68.9	77.7
UGround - V1 - 7B (Qwen2 - VL)	Qwen2 - VL	UGround - V1	93.0	79.9	93.8	76.4	90.9	84.0	86.3

GUI视觉定位：ScreenSpot（代理设置）

规划器	定位模型	架构	SFT数据	移动文本	移动图标	桌面文本	桌面图标	网页文本	网页图标	平均值
GPT - 4o	Qwen - VL	Qwen - VL		21.3	21.4	18.6	10.7	9.1	5.8	14.5
GPT - 4o	SeeClick	Qwen - VL	SeeClick	81.0	59.8	69.6	33.6	43.9	26.2	52.4
GPT - 4o	Qwen - GUI	Qwen - VL	GUICourse	67.8	24.5	53.1	16.4	50.4	18.5	38.5
GPT - 4o	UGround - V1	LLaVA - UGround - V1	UGround - V1	93.4	76.9	92.8	67.9	88.7	68.9	81.4
GPT - 4o	OS - Atlas - Base - 4B	InternVL	OS - Atlas	94.1	73.8	77.8	47.1	86.5	65.3	74.1
GPT - 4o	OS - Atlas - Base - 7B	Qwen2 - VL	OS - Atlas	93.8	79.9	90.2	66.4	92.6	79.1	83.7
GPT - 4o	UGround - V1 - 2B (Qwen2 - VL)	Qwen2 - VL	UGround - V1	94.1	77.7	92.8	63.6	90.0	70.9	81.5
GPT - 4o	UGround - V1 - 7B (Qwen2 - VL)	Qwen2 - VL	UGround - V1	94.1	79.9	93.3	73.6	89.6	73.3	84.0

image/png

📚 引用信息

如果您觉得本工作有用，请考虑引用我们的论文：

@article{gou2024uground,
        title={Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents},
        author={Boyu Gou and Ruohan Wang and Boyuan Zheng and Yanan Xie and Cheng Chang and Yiheng Shu and Huan Sun and Yu Su},
        journal={arXiv preprint arXiv:2410.05243},
        year={2024},
        url={https://arxiv.org/abs/2410.05243},
      }

@article{zheng2023seeact,
        title={GPT-4V(ision) is a Generalist Web Agent, if Grounded},
        author={Boyuan Zheng and Boyu Gou and Jihyung Kil and Huan Sun and Yu Su},
        journal={arXiv preprint arXiv:2401.01614},
        year={2024},
      }