U

Uground

由 osunlp 开发
UGround是通过简洁配方训练的强力GUI视觉定位模型,由俄亥俄州立大学NLP组与Orby AI合作完成。
下载量 208
发布时间 : 8/2/2024
模型介绍
内容详情
替代品

模型简介

UGround是一个专注于GUI视觉定位的多模态模型,能够精确定位用户界面中的各种元素,如文本、图标等。

模型特点

强大的GUI视觉定位能力
在ScreenSpot基准测试中表现出色,平均准确率达到73.3%
多平台支持
支持移动端、桌面端和网页端的GUI元素定位
简洁训练配方
采用高效的数据合成和训练方法,无需复杂架构

模型能力

GUI元素定位
多模态理解
跨平台界面分析
视觉-语言对齐

使用案例

自动化测试
界面元素检测
自动识别和定位用户界面中的各种元素
在ScreenSpot测试中达到82.8%的移动端文本定位准确率
智能助手
基于视觉的指令执行
帮助用户通过视觉界面完成操作
在智能体设置下达到81.4%的平均准确率