C

Cogvlm2 Llama3 Chat 19B

由 THUDM 开发
CogVLM2是基于Meta-Llama-3-8B-Instruct构建的多模态大模型,支持图像理解和对话任务,具有8K上下文长度和1344x1344图像分辨率处理能力。
下载量 7,805
发布时间 : 5/16/2024
模型介绍
内容详情
替代品

模型简介

新一代视觉语言模型,在多项基准测试中表现优异,支持中英文多模态交互。

模型特点

高性能多模态理解
在TextVQA、DocVQA等基准测试中显著优于前代模型
长上下文支持
支持8K长度的上下文记忆
高分辨率图像处理
支持最高1344x1344像素的图像输入
双语支持
提供中英文双语版本(cogvlm2-llama3-chinese-chat-19B)

模型能力

图像内容理解
文档问答
图表解析
多轮对话
跨模态推理

使用案例

文档处理
文档内容问答
解析PDF/图片文档并回答相关问题
在DocVQA基准测试中达到92.3分
视觉问答
图像内容问答
回答关于图像内容的复杂问题
在TextVQA基准测试中达到84.2分
教育辅助
图表解析
解释和分析各类数据图表
在ChartQA基准测试中达到81.0分