C

Cogagent Chat Hf

由 THUDM 开发
CogAgent是基于CogVLM改进的开源视觉语言模型,具备GUI智能体、视觉多轮对话和视觉定位等能力。
下载量 503
发布时间 : 12/15/2023
模型介绍
内容详情
替代品

模型简介

CogAgent是一个高性能的视觉语言模型,专注于GUI智能体任务和视觉对话,支持1120x1120高分辨率图像输入。

模型特点

高分辨率视觉处理
支持1120x1120超高分辨率图像输入,提供更精细的视觉理解能力
GUI智能体功能
能够理解和操作各种GUI界面,包括网页、PC和移动应用
增强的视觉定位
在图像中精确定位和描述对象位置
多轮视觉对话
支持基于图像的深入多轮对话

模型能力

视觉问答
GUI操作规划
图像内容描述
视觉定位
多轮对话
OCR增强

使用案例

GUI自动化
网页自动化操作
根据网页截图生成操作步骤
在AITW和Mind2Web数据集上表现优异
视觉问答
复杂图像理解
回答关于复杂图像的问题
在9个跨模态基准测试中达到顶尖水平