p-MoD-LLaVA-NeXT-7B开源多模态模型 - 支持图像文本生成高质量文本

P MoD LLaVA NeXT 7B

由 MCG-NJU 开发

p-MoD是一个基于渐进比例衰减方法构建的混合深度多模态大语言模型，支持图像文本生成文本任务。

下载量 74

发布时间 : 12/2/2024

模型简介

该模型基于LCS-558K图像描述数据预训练，并在779K LLaVA-NeXT指令数据上进行指令微调，能够处理图像与文本的多模态任务。

渐进比例衰减方法

通过渐进比例衰减构建混合深度结构，优化模型性能。

多模态能力

结合视觉和语言模型，支持图像与文本的交互处理。

大规模预训练

基于LCS-558K图像描述数据和779K LLaVA-NeXT指令数据进行训练。

图像描述生成

多模态文本生成

视觉语言理解

图像理解与描述

自动图像标注

为图像生成详细的文本描述。

多模态交互

视觉问答

根据图像内容回答相关问题。

属性	详情
基础模型	lmsys/vicuna - 7b - v1.5、openai/clip - vit - large - patch14 - 336
模型类型	图像文本到文本
训练数据	在 [LCS - 558K](https://huggingface.co/datasets/liuhaotian/LLaVA - Pretrain) 图像描述数据上预训练，在 [779K LLaVA - NeXT 指令数据](https://huggingface.co/datasets/lmms - lab/LLaVA - NeXT - Data) 上进行指令微调