L

Llava Llama 3 8b

由 Intel 开发
基于LLaVA-v1.5框架训练的大型多模态模型,采用80亿参数的Meta-Llama-3-8B-Instruct作为语言主干,并配备基于CLIP的视觉编码器。
下载量 387
发布时间 : 5/8/2024
模型介绍
内容详情
替代品

模型简介

该模型针对多模态基准评估进行了微调,也可用作多模态聊天机器人。

模型特点

多模态能力
结合视觉编码器和语言模型,能够理解和生成与图像相关的文本内容。
高性能基准
在多个多模态基准测试中表现优异,如GQA、MMVP、Pope等。
基于LLaVA-v1.5框架
采用改进的视觉指令调优基线,提升了多模态任务的性能。

模型能力

图像理解
多模态对话
视觉问答
图像描述生成

使用案例

多模态评估
多模态基准测试
用于评估模型在多模态任务中的性能表现。
在GQA、MMVP、Pope等基准测试中取得较高分数。
聊天机器人
多模态聊天
作为多模态聊天机器人,能够理解和回答与图像相关的问题。