C

Cogvlm Grounding Generalist Hf Quant4

由 Rodeszones 开发
CogVLM是一款强大的开源视觉语言模型,支持目标检测和视觉问答等任务,采用4位精度量化。
下载量 50
发布时间 : 3/5/2024
模型介绍
内容详情
替代品

模型简介

CogVLM是一款视觉语言模型,具备强大的视觉理解和语言生成能力,支持目标检测、图像描述生成等任务。

模型特点

高性能跨模态能力
在10个经典跨模态基准测试中达到最先进性能,媲美PaLI-X 55B
4位量化
采用bitsandbytes 4位精度量化,降低硬件需求
目标定位能力
可生成图像中物体的坐标位置信息

模型能力

目标检测
图像描述生成
视觉问答
跨模态理解

使用案例

图像分析
物体检测与定位
识别图像中的物体并标注坐标位置
输出格式:物体描述[[x0,y0,x1,y1]]
智能客服
视觉问答
回答关于图像内容的自然语言问题