I

Infigui R1 3B

由 Reallm-Labs 开发
基于Qwen2.5-VL-3B-Instruct的多模态GUI智能体,通过强化学习增强在图形用户界面任务中的规划和反思能力
下载量 105
发布时间 : 4/19/2025
模型介绍
内容详情
替代品

模型简介

该模型专注于图形用户界面(GUI)任务,能够理解界面元素并执行交互操作,具有规划和反思能力

模型特点

GUI交互能力
能够理解和操作图形用户界面元素,执行点击、滑动等交互操作
规划与反思
通过Actor2Reasoner框架增强任务规划和执行反思能力
多模态理解
同时处理图像和文本输入,理解界面元素及其功能

模型能力

GUI元素定位
界面操作轨迹规划
多模态推理
任务执行反思

使用案例

移动应用测试
自动化UI测试
自动执行移动应用界面测试流程
可识别界面元素并执行预定操作序列
辅助功能
视觉障碍辅助
帮助视觉障碍用户理解和操作界面
可描述界面元素并指导用户操作