U

UI TARS 2B SFT

由 bytedance-research 开发
UI-TARS是新一代原生图形用户界面(GUI)代理模型,旨在通过类人的感知、推理和行动能力与图形用户界面无缝交互。
下载量 5,792
发布时间 : 1/20/2025
模型介绍
内容详情
替代品

模型简介

UI-TARS将所有关键组件——感知、推理、定位和记忆——集成在一个单一的视觉语言模型(VLM)中,实现了无需预定义工作流程或手动规则的端到端任务自动化。

模型特点

端到端任务自动化
集成感知、推理、定位和记忆于单一模型,无需预定义工作流程或手动规则。
原生GUI交互
通过类人的感知、推理和行动能力与图形用户界面无缝交互。
多模态能力
结合视觉和语言理解能力,处理复杂的GUI任务。

模型能力

图形用户界面交互
视觉语言理解
端到端任务自动化
多模态推理

使用案例

自动化测试
GUI自动化测试
自动执行GUI界面的测试任务,无需人工干预。
提高测试效率和覆盖率
智能助手
GUI操作助手
帮助用户完成复杂的GUI操作任务。
提升用户操作效率