C

Cogvlm2 Llama3 Chinese Chat 19B

由 THUDM 开发
CogVLM2是基于Meta-Llama-3-8B-Instruct构建的多模态大模型,支持中英双语,具备强大的图像理解和对话能力。
下载量 118
发布时间 : 5/16/2024
模型介绍
内容详情
替代品

模型简介

新一代CogVLM2系列模型,支持8K上下文长度和1344*1344分辨率图像输入,在多项基准测试中表现优异。

模型特点

多模态能力
支持图像和文本的联合理解与生成
高分辨率支持
最高支持1344*1344分辨率的图像输入
长上下文处理
支持8K长度的上下文处理
双语支持
同时支持中文和英文的对话与理解

模型能力

图像理解
文本生成
多模态对话
文档分析
图表理解

使用案例

视觉问答
图像内容问答
回答关于图像内容的各类问题
在TextVQA基准测试中达到85.0分
文档处理
文档理解与问答
解析文档内容并回答相关问题
在DocVQA基准测试中达到88.4分
图表分析
图表数据解读
理解图表内容并提取关键信息
在ChartQA基准测试中达到74.7分