U

Uground V1 72B

由 osunlp 开发
UGround是一款强大的GUI视觉定位模型,采用简单配方训练,专注于图像文本到文本的多模态任务。
下载量 129
发布时间 : 1/11/2025

模型简介

UGround是一款由OSUNLP与Orby AI合作开发的视觉定位模型,基于Qwen2-VL架构,能够处理图像与文本之间的多模态交互任务。

模型特点

强大的GUI视觉定位能力
UGround能够准确理解和定位图形用户界面中的元素,实现高效的图像文本交互。
多模态支持
模型支持图像和文本之间的多模态交互,能够处理复杂的视觉和语言任务。
基于Qwen2-VL架构
采用先进的Qwen2-VL-72B架构,具备强大的计算能力和处理效率。

模型能力

图像文本交互
GUI元素定位
多模态任务处理

使用案例

GUI自动化
屏幕元素定位
用于自动化测试中定位和操作屏幕上的GUI元素。
提高自动化测试的准确性和效率。
多模态交互
图像描述生成
根据图像内容生成详细的文本描述。
提升图像理解和描述的质量。
AIbase
智启未来,您的人工智能解决方案智库
简体中文