G

GUI Actor 2B Qwen2 VL

由 microsoft 开发
GUI-Actor-2B是基于Qwen2-VL-2B的视觉语言模型,专为图形用户界面(GUI)定位任务设计,通过增加基于注意力的动作头并进行微调,在多个GUI定位基准测试中表现良好。
下载量 163
发布时间 : 6/1/2025

模型简介

该模型主要用于执行图形用户界面的定位任务,能够根据屏幕截图和指令预测操作位置。

模型特点

基于Qwen2-VL骨干模型
以强大的Qwen2-VL-2B视觉语言模型为基础,具备优秀的视觉理解能力
专用动作头设计
增加基于注意力的动作头,专门优化GUI定位任务
多基准测试表现优异
在ScreenSpot-Pro、ScreenSpot和ScreenSpot-v2等多个GUI定位基准上取得领先成绩

模型能力

GUI元素定位
视觉语言理解
屏幕指令理解
操作点预测

使用案例

自动化测试
GUI元素定位
根据指令自动定位屏幕上的特定元素
在ScreenSpot-Pro上达到36.7%的准确率
辅助工具
无障碍操作辅助
帮助视障用户通过语音指令操作图形界面
AIbase
智启未来,您的人工智能解决方案智库
简体中文