U

UI TARS 72B DPO

由 parasail-ai 开发
UI-TARS是下一代原生GUI智能体模型,具备类人的感知、推理和行动能力,可与图形用户界面(GUI)实现无缝交互。
下载量 179
发布时间 : 4/3/2025

模型简介

UI-TARS将感知、推理、定位和记忆等关键组件集成在单一的视觉语言模型(VLM)中,无需预定义工作流或手动规则,即可实现端到端的任务自动化。

模型特点

端到端GUI交互
无需预定义工作流或手动规则,实现从感知到行动的完整GUI交互流程
多模态能力
集成视觉和语言处理能力,能够理解和操作各种GUI元素
高性能定位能力
在ScreenSpot等GUI元素定位基准测试中表现优异
离线智能体能力
在Multimodal Mind2Web等离线任务评估中达到SOTA水平

模型能力

GUI元素感知
GUI元素定位
GUI操作推理
跨平台GUI交互
多模态理解
任务自动化

使用案例

自动化测试
跨平台UI测试
自动执行跨移动端、桌面端和网页端的UI测试用例
在Android Control和GUI Odyssey测试中达到88.6%的成功率
RPA自动化
业务流程自动化
自动完成涉及多个GUI应用的业务流程
在OSWorld在线评估中达到24.6%的成功率(50步任务)
辅助工具
无障碍交互
帮助视障用户与GUI界面交互
AIbase
智启未来,您的人工智能解决方案智库
简体中文