U

Uground V1 2B

由 osunlp 开发
UGround是一个强大的GUI视觉定位模型,采用简单的方法进行训练,由OSUNLP和Orby AI合作完成。
下载量 975
发布时间 : 1/3/2025

模型简介

UGround是一个专注于GUI视觉定位的模型,能够精确定位屏幕上的特定元素或对象,适用于各种GUI交互场景。

模型特点

强大的GUI视觉定位能力
能够精确定位屏幕上的特定元素或对象,准确识别GUI中的各种组件。
简单的训练方法
采用简洁有效的训练策略,实现了高性能的视觉定位能力。
多尺寸图像处理
支持处理各种分辨率和比例的图像,适应不同的GUI界面。
多语言支持
除了英语和中文,还支持理解图像中多种语言的文本内容。

模型能力

GUI元素定位
视觉问答
多模态理解
跨语言文本识别
复杂推理和决策

使用案例

自动化测试
GUI元素自动识别
自动识别和定位应用程序界面中的按钮、文本框等元素
提高自动化测试的准确性和效率
辅助技术
视觉辅助工具
帮助视障用户理解和操作GUI界面
提升无障碍访问体验
机器人控制
基于视觉的机器人操作
通过GUI界面控制机器人执行任务
实现更自然的机器人交互方式
AIbase
智启未来,您的人工智能解决方案智库
简体中文