P

Paligemma 3b Ft Widgetcap Waveui 448

由 agentsea 开发
基于PaliGemma 3B 448分辨率权重,在WaveUI数据集上针对目标检测任务微调的视觉语言模型
下载量 344
发布时间 : 7/8/2024
模型介绍
内容详情
替代品

模型简介

专注于UI元素检测的视觉语言模型,作为AgentSea开源智能体构建工具包的重要组成部分

模型特点

高精度UI元素检测
在WaveUI数据集上微调,专门优化UI元素检测性能
基于PaliGemma架构
基于谷歌PaliGemma 3B模型构建,具备强大的多模态理解能力
开源智能体支持
作为AgentSea开源智能体构建工具包的核心组件

模型能力

UI元素检测
多模态理解
目标定位

使用案例

UI自动化
界面元素识别
自动识别应用界面中的按钮、输入框等元素
在测试集上达到0.40 IoU
智能体开发
自动化测试
用于构建能够理解UI的测试智能体