C

Cogvlm Grounding Generalist Hf

由 THUDM 开发
CogVLM 是一个强大的开源视觉语言模型(VLM),在多个跨模态基准测试上取得了SOTA性能。
下载量 702
发布时间 : 11/17/2023

模型简介

CogVLM 是一个视觉语言模型,能够理解和生成与图像相关的文本描述,支持多模态对话和物体定位。

模型特点

多模态理解
能够同时处理视觉和语言信息,实现图像与文本的深度交互
高性能
在10个经典跨模态基准测试上取得SOTA性能,部分任务超越PaLI-X 55B
物体定位能力
可提供图像中提及物体的坐标位置信息
开源模型
代码和模型权重开放,便于研究和应用

模型能力

图像描述生成
视觉问答
多模态对话
物体检测与定位
跨模态理解

使用案例

图像理解
自动图像标注
为图像生成详细描述文本
在COCO captioning等基准测试中表现优异
视觉问答
回答关于图像内容的自然语言问题
在VQAv2、OKVQA等基准测试中排名第二
人机交互
多模态对话
基于图像内容的自然语言对话
支持复杂的图像相关对话交互
计算机视觉辅助
物体定位
识别图像中物体并提供坐标位置
可输出物体边界框坐标[[x0,y0,x1,y1]]
AIbase
智启未来,您的人工智能解决方案智库
简体中文