U

UI TARS 2B SFT

由 ByteDance-Seed 开发
UI-TARS 是新一代原生图形用户界面(GUI)代理模型,旨在通过类人的感知、推理和行动能力,无缝地与图形用户界面交互。
下载量 5,553
发布时间 : 1/20/2025
模型介绍
内容详情
替代品

模型简介

UI-TARS 是一个视觉语言模型(VLM),将所有关键组件——感知、推理、定位和记忆——集成在一个模型中,实现端到端的任务自动化,无需预定义工作流或手动规则。

模型特点

端到端GUI交互
集成感知、推理、定位和记忆能力,实现无缝的图形用户界面交互
多模态能力
结合视觉和语言理解能力,能够处理图像和文本输入
高性能定位
在ScreenSpot Pro等定位任务评估中表现优异

模型能力

图形用户界面交互
视觉理解
文本理解
界面元素定位
多模态推理

使用案例

自动化测试
GUI自动化测试
自动识别和操作界面元素进行软件测试
提高测试效率和覆盖率
辅助工具
无障碍辅助
帮助视障用户理解和操作图形界面
提升无障碍使用体验