A

Agentcpm GUI

由 openbmb 开发
AgentCPM-GUI是一款具备RFT增强推理能力的设备端图形界面代理,可操作中英文应用,基于80亿参数的MiniCPM-V构建。
下载量 541
发布时间 : 5/8/2025
模型介绍
内容详情
替代品

模型简介

由清华自然语言处理实验室、中国人民大学和ModelBest联合开发的开源设备端大语言代理模型,以手机屏幕截图作为输入,自主执行用户指定任务。

模型特点

高质量GUI定位
通过大规模双语安卓数据集预训练,显著提升对常见GUI组件的定位与理解能力。
中文应用操作
首个针对中文应用精细调优的开源GUI代理,覆盖30+热门中文应用。
增强规划推理
强化微调技术(RFT)使模型在输出动作前进行思考,大幅提升复杂任务成功率。
紧凑动作空间设计
优化的动作空间与简洁JSON格式使平均动作长度降至9.7个token,提升设备端推理效率。

模型能力

图形界面理解
屏幕元素定位
多模态交互
任务规划
自动化操作

使用案例

移动应用自动化
中文应用导航
在高德地图、大众点评等中文应用中执行导航、搜索等任务
在定位基准测试中达到71.3的平均分
跨语言界面操作
在中英文混合界面中准确识别并操作目标元素
在文本转坐标任务中达到76.5分
无障碍辅助
视觉辅助操作
帮助视障用户通过语音指令操作移动设备界面