U

Uground V1 7B

由 osunlp 开发
UGround是一款采用简单配方训练的强大GUI视觉定位模型,由OSU NLP Group与Orby AI合作完成。
下载量 2,053
发布时间 : 1/3/2025

模型简介

UGround是一款基于Qwen2-VL的GUI视觉定位模型,专注于精确定位屏幕上特定区域/元素/对象的坐标。

模型特点

多模态视觉定位
能够精确定位屏幕上特定区域/元素/对象的坐标(x,y)。
高性能
在ScreenSpot基准测试中表现优异,平均分达到86.3。
智能体集成
可集成手机/机器人等设备实现视觉环境下的自动操作。

模型能力

GUI视觉定位
多模态理解
智能体操作

使用案例

GUI视觉定位
ScreenSpot基准测试
在标准设置下进行GUI视觉定位测试
平均分86.3,在多个子任务中表现优异
智能体设置
与GPT-4o规划器结合使用
平均分84.0,在移动端和桌面端表现突出
AIbase
智启未来,您的人工智能解决方案智库
简体中文