L

Llava MORE Llama 3 1 8B Finetuning

由 aimagelab 开发
LLaVA-MORE是基于LLaVA架构的增强版本,集成了LLaMA 3.1作为语言模型,专注于图像到文本的任务。
下载量 215
发布时间 : 7/30/2024
模型介绍
内容详情
替代品

模型简介

LLaVA-MORE通过集成LLaMA 3.1作为语言模型,对著名的LLaVA架构进行了增强。该模型主要用于图像到文本的任务,支持视觉指令调优。

模型特点

增强的视觉指令调优
通过集成LLaMA 3.1作为语言模型,提升了视觉指令调优的能力。
两阶段训练
提供了第一阶段和第二阶段的检查点,便于不同场景下的使用。

模型能力

图像到文本生成
视觉指令理解

使用案例

视觉问答
图像描述生成
根据输入的图像生成详细的文本描述。
视觉指令响应
根据视觉输入和指令生成相应的文本响应。