Q

Qwen2.5 VL 3B UI R1 E

由 LZXzju 开发
UI-R1-E-3B是基于Qwen2.5-VL-3B-Instruct微调的高效GUI定位模型,专注于视觉问答任务,特别擅长在用户界面截图中定位和识别操作元素。
下载量 75
发布时间 : 5/14/2025
模型介绍
内容详情
替代品

模型简介

该模型通过强化学习增强GUI代理的行为预测能力,能够准确识别用户界面中的操作元素并预测执行命令所需的操作(如点击)及其坐标位置。

模型特点

高效GUI定位
在用户界面截图中精确定位操作元素,预测点击坐标
无思考过程推理
相比带思考过程的版本,推理速度更快且准确率更高
多平台支持
在移动端(Mobile)、桌面端(Desktop)和网页(Web)界面均有优异表现

模型能力

GUI元素识别
操作指令理解
坐标定位预测
跨平台界面分析

使用案例

自动化测试
UI自动化测试
自动识别界面元素并执行测试操作
在ScreenSpotV2基准测试中平均准确率达89.5%
辅助功能
视觉障碍辅助
帮助视觉障碍用户理解界面元素位置