L

Llava Gemma 2b

由 Intel 开发
LLaVA-Gemma-2b是基于LLaVA-v1.5框架训练的大型多模态模型,采用20亿参数的Gemma-2b-it作为语言主干,结合CLIP视觉编码器。
下载量 1,503
发布时间 : 3/14/2024
模型介绍
内容详情
替代品

模型简介

该模型针对多模态基准评估进行了微调,可作为多模态聊天机器人使用,支持图像和文本的交互。

模型特点

紧凑高效
采用20亿参数的Gemma-2b-it作为语言主干,在保持性能的同时降低计算资源需求。
多模态理解
结合CLIP视觉编码器,能够同时处理图像和文本输入,实现跨模态理解。
快速训练
在8个英特尔Gaudi 2 AI加速器上仅需4小时即可完成训练。

模型能力

图像描述生成
视觉问答
多模态对话
文本总结

使用案例

多模态聊天机器人
图像内容问答
用户上传图片并询问相关内容,模型生成准确描述和回答。
在VQAv2基准测试中达到70.7的准确率
学术研究
多模态模型研究
为研究人员提供紧凑模型研究平台,探索计算效率和多模态理解的平衡。