L

Llava Gemma 7b

由 Intel 开发
LLaVA-Gemma-7b是基于LLaVA-v1.5框架训练的大型多模态模型,采用google/gemma-7b-it作为语言主干,结合CLIP视觉编码器,适用于多模态理解和生成任务。
下载量 161
发布时间 : 3/26/2024
模型介绍
内容详情
替代品

模型简介

该模型是一个大型多模态模型(LMM),能够处理图像和文本输入,生成文本输出,适用于多模态聊天机器人和多模态基准评估。

模型特点

多模态理解
能够同时处理图像和文本输入,理解两者之间的关系
高效训练
在8个英特尔Gaudi 2 AI加速器上仅需4小时训练
紧凑模型
基于70亿参数的Gemma模型,在保持性能的同时减少计算资源需求

模型能力

图像理解
文本生成
多模态对话
视觉问答

使用案例

多模态聊天机器人
图像描述生成
根据输入图像生成描述性文本
在VQAv2基准测试中达到68.7的准确率
多模态对话
结合图像和文本进行自然对话
在MM-Vet基准测试中达到18.2分
学术研究
多模态模型研究
用于探索小规模模型中计算效率与多模态理解之间的权衡
提供Gemma-2B和Gemma-7B两种变体供比较分析