U

UI TARS 7B DPO

由 ByteDance-Seed 开发
UI-TARS 是新一代原生图形用户界面(GUI)智能体模型,旨在通过类人的感知、推理和行动能力与图形用户界面无缝交互。
下载量 38.74k
发布时间 : 1/22/2025
模型介绍
内容详情
替代品

模型简介

UI-TARS 将所有关键组件——感知、推理、定位和记忆——集成在一个视觉语言模型(VLM)中,实现端到端的任务自动化,无需预定义工作流或手动规则。

模型特点

端到端任务自动化
集成感知、推理、定位和记忆功能,无需预定义工作流或手动规则。
高性能GUI交互
在多个基准测试中表现出色,特别是在定位能力评估中优于其他模型。
多模态支持
支持图形用户界面的视觉和文本交互。

模型能力

图形用户界面交互
视觉感知
文本推理
定位能力
任务自动化

使用案例

GUI自动化
自动化测试
用于自动化测试图形用户界面的功能和性能。
在ScreenSpot Pro基准测试中表现优异。
用户界面导航
帮助用户导航复杂的图形用户界面。
在VisualWebBench和WebSRC基准测试中表现优异。