C

Cogagent Vqa Hf

由 THUDM 开发
CogAgent是基于CogVLM改进的开源视觉语言模型,专注于单轮视觉问答任务
下载量 238
发布时间 : 12/16/2023
模型介绍
内容详情
替代品

模型简介

CogAgent是一个强大的视觉语言模型,特别优化了单轮视觉问答能力,支持1120x1120高分辨率图像输入,在多个VQA基准测试上表现优异

模型特点

高分辨率图像处理
支持1120x1120超高分辨率图像输入,能捕捉更精细的视觉细节
卓越的VQA性能
在9个跨模态基准测试中达到顶尖水平,包括VQAv2、MM-Vet等
优化的单轮问答
专门针对单轮视觉问答任务进行优化,相比chat版本在VQA任务上表现更优

模型能力

视觉问答
图像理解
文本生成
高分辨率图像处理

使用案例

教育
教材图像问答
回答关于教材图表、插图的各类问题
准确理解图表内容并生成正确回答
商业
商业图表分析
分析商业报告中的各类图表数据
准确提取图表信息并生成分析结果