L

Llava Phi 3 Mini 4k Instruct

由 MBZUAI 开发
结合Phi-3-mini-3.8B大语言模型与LLaVA v1.5的视觉语言模型,提供先进的视觉语言理解能力。
下载量 550
发布时间 : 4/26/2024

模型简介

本项目通过将Phi-3-mini-3.8B大语言模型与LLaVA v1.5相结合,充分发挥两个模型的优势,为用户提供更先进的视觉语言理解能力。

模型特点

结合Phi-3与LLaVA的优势
通过结合Phi-3-mini-3.8B大语言模型与LLaVA v1.5的视觉能力,提供更先进的视觉语言理解能力。
高效的训练策略
采用预训练和微调两阶段策略,仅对关键部分进行训练,保持模型高效。
合并权重
仓库中包含合并后的权重,便于直接使用。

模型能力

视觉语言理解
多模态任务处理
图像描述生成
视觉问答

使用案例

视觉语言任务
图像描述生成
根据输入的图像生成详细的文字描述。
视觉问答
回答关于图像内容的自然语言问题。
AIbase
智启未来,您的人工智能解决方案智库
简体中文