C

Cogvlm Chat Hf

由 THUDM 开发
CogVLM是一个强大的开源视觉语言模型,在多个跨模态基准测试中取得领先性能
下载量 4,816
发布时间 : 11/16/2023
模型介绍
内容详情
替代品

模型简介

CogVLM是一个视觉语言模型(VLM),结合了视觉和语言处理能力,适用于多模态任务

模型特点

多模态融合
结合视觉和语言处理能力,实现跨模态理解
高性能
在10个经典跨模态基准测试中取得领先性能
视觉专家模块
独特的视觉专家模块增强视觉理解能力

模型能力

图像描述生成
视觉问答
跨模态理解
多模态对话

使用案例

图像理解
图像描述生成
为图像生成准确的自然语言描述
在Flicker30k字幕生成任务中表现优异
视觉问答
基于图像的问答
回答关于图像内容的自然语言问题
在VQAv2、OKVQA等任务中位列第二