C

Cogvlm2 Llama3 Chat 19B Int4

由 THUDM 开发
CogVLM2是基于Meta-Llama-3-8B-Instruct构建的多模态对话模型,支持中英文,具备8K上下文长度和1344*1344分辨率图像处理能力。
下载量 467
发布时间 : 5/24/2024
模型介绍
内容详情
替代品

模型简介

新一代CogVLM2系列开源模型,在多项基准测试中表现优异,支持高分辨率图像理解和长文本对话。

模型特点

高性能多模态理解
在TextVQA、DocVQA等多项基准测试中表现优异,超越上一代模型
长上下文支持
支持8K长度的上下文对话
高分辨率图像处理
支持最高1344*1344分辨率的图像输入
双语支持
同时支持中文和英文的多模态对话

模型能力

多模态对话
图像内容理解
长文本生成
文档问答
图表理解
OCR能力

使用案例

文档处理
文档问答
对上传的文档进行内容理解和问答
在DocVQA基准测试中达到92.3分
图像理解
图像内容问答
对图像内容进行描述和问答
在TextVQA基准测试中达到85.0分
图表分析
图表理解
解析图表内容并回答问题
在ChartQA基准测试中达到81.0分