P

P MoD LLaVA NeXT 7B

由 MCG-NJU 开发
p-MoD是一个基于渐进比例衰减方法构建的混合深度多模态大语言模型,支持图像文本生成文本任务。
下载量 74
发布时间 : 12/2/2024
模型介绍
内容详情
替代品

模型简介

该模型基于LCS-558K图像描述数据预训练,并在779K LLaVA-NeXT指令数据上进行指令微调,能够处理图像与文本的多模态任务。

模型特点

渐进比例衰减方法
通过渐进比例衰减构建混合深度结构,优化模型性能。
多模态能力
结合视觉和语言模型,支持图像与文本的交互处理。
大规模预训练
基于LCS-558K图像描述数据和779K LLaVA-NeXT指令数据进行训练。

模型能力

图像描述生成
多模态文本生成
视觉语言理解

使用案例

图像理解与描述
自动图像标注
为图像生成详细的文本描述。
多模态交互
视觉问答
根据图像内容回答相关问题。