llava-gemma-2b开源多模态模型 - 融合视觉与语言，带来多元应用体验

首页

Llava Gemma 2b

由 Intel 开发

LLaVA-Gemma-2b是基于LLaVA-v1.5框架训练的大型多模态模型，采用20亿参数的Gemma-2b-it作为语言主干，结合CLIP视觉编码器。

图像生成文本

Transformers

英语#多模态聊天 #紧凑视觉语言 #指令跟随

下载量 1,503

发布时间 : 3/14/2024

模型简介

该模型针对多模态基准评估进行了微调，可作为多模态聊天机器人使用，支持图像和文本的交互。

模型特点

紧凑高效

采用20亿参数的Gemma-2b-it作为语言主干，在保持性能的同时降低计算资源需求。

多模态理解

结合CLIP视觉编码器，能够同时处理图像和文本输入，实现跨模态理解。

快速训练

在8个英特尔Gaudi 2 AI加速器上仅需4小时即可完成训练。

模型能力

图像描述生成

视觉问答

多模态对话

文本总结

使用案例

多模态聊天机器人

图像内容问答

用户上传图片并询问相关内容，模型生成准确描述和回答。

在VQAv2基准测试中达到70.7的准确率

学术研究

多模态模型研究

为研究人员提供紧凑模型研究平台，探索计算效率和多模态理解的平衡。

🚀 大语言模型llava-gemma-2b

llava-gemma-2b 是一个大型多模态模型（LMM），它基于 LLaVA-v1.5 框架进行训练。该模型以拥有 20 亿参数的 google/gemma-2b-it 模型作为语言主干，并采用基于 CLIP 的视觉编码器。

🚀 快速开始

使用 llava-gemma 时，如果你的 transformers 版本低于 4.41.1，则需要使用修改后的预处理器。

当前使用方法，请参考 usage.py 或以下代码块：

基础用法

import requests
from PIL import Image
from transformers import (
  LlavaForConditionalGeneration,
  AutoTokenizer,
  AutoProcessor,
  CLIPImageProcessor
)
#In this repo, needed for version < 4.41.1
#from processing_llavagemma import LlavaGemmaProcessor
#processor = LlavaGemmaProcessor( tokenizer=AutoTokenizer.from_pretrained(checkpoint), image_processor=CLIPImageProcessor.from_pretrained(checkpoint))

checkpoint = "Intel/llava-gemma-2b"

# Load model
model = LlavaForConditionalGeneration.from_pretrained(checkpoint)
processor = AutoProcessor.from_pretrained(checkpoint)

# Prepare inputs
# Use gemma chat template
prompt = processor.tokenizer.apply_chat_template(
    [{'role': 'user', 'content': "<image>\nWhat's the content of the image?"}],
    tokenize=False,
    add_generation_prompt=True
)
url = "https://www.ilankelman.org/stopsigns/australia.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=prompt, images=image, return_tensors="pt")

# Generate
generate_ids = model.generate(**inputs, max_length=30)
output = processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
print(output)

高级用法

若要将其作为聊天机器人直接使用（不使用图像），可以将代码的最后部分修改为以下内容：

# Prepare inputs
# Use gemma chat template
prompt = processor.tokenizer.apply_chat_template(
    [{'role': 'user', 'content': "Summarize the following paragraph? In this paper, we introduced LLaVA-Gemma, a compact vision-language model leveraging the Gemma Large Language Model in two variants, Gemma-2B and Gemma-7B. Our work provides a unique opportunity for researchers to explore the trade-offs between computational efficiency and multimodal understanding in small-scale models. The availability of both variants allows for a comparative analysis that sheds light on how model size impacts performance in various tasks. Our evaluations demonstrate the versatility and effectiveness of LLaVA-Gemma across a range of datasets, highlighting its potential as a benchmark for future research in small-scale vision-language models. With these models, future practitioners can optimize the performance of small-scale multimodal models more directly."}],
    tokenize=False,
    add_generation_prompt=True
)
# url = "https://www.ilankelman.org/stopsigns/australia.jpg"
# image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=prompt, images=None, return_tensors="pt")

# Generate
generate_ids = model.generate(**inputs, max_length=300)
output = processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
print(output)

✨ 主要特性

多模态能力：结合了语言和视觉信息处理能力，可处理图像和文本输入。
基于成熟框架：采用 LLaVA-v1.5 框架进行训练，具有良好的性能基础。
特定模型架构：以 google/gemma-2b-it 作为语言主干，搭配 CLIP 视觉编码器。

📚 详细文档

模型详情

属性	详情
模型名称	llava-gemma-2b
作者	英特尔：Musashi Hinck、Matthew L. Olson、David Cobbley、Shao-Yen Tseng、Vasudev Lal
日期	2024 年 3 月
版本	1
模型类型	大型多模态模型（LMM）
论文或其他资源	LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model
许可证	Gemma
问题或评论	社区板块和英特尔开发者中心 Discord

预期用途

预期用途	描述
主要预期用途	该模型经过微调，可用于多模态基准评估，也可作为多模态聊天机器人使用。
主要预期用户	任何使用或评估多模态模型的人员。
非预期用途	该模型不适用于需要高度事实性的用途、高风险场景、心理健康或医疗应用、生成错误信息或虚假信息、冒充他人、助长或煽动骚扰或暴力，以及任何可能导致违反《联合国人权宣言》所规定人权的用途。

影响因素

因素	描述
分组	-
仪器	-
环境	在 8 个英特尔 Gaudi 2 AI 加速器上训练了 4 小时。
卡片提示	在其他硬件和软件上进行模型训练和部署会改变模型性能。

评估指标

指标	描述
模型性能指标	我们在与其他 LMM 工作类似的基准测试集上评估 LlaVA-Gemma 模型：GQA、MME、MM-Vet、POPE（准确率和 F1 值）、VQAv2、MMVP、ScienceQA 的图像子集。我们的实验为 LLaVA 框架内各种设计选择的有效性提供了见解。
决策阈值	-
不确定性和可变性处理方法	-

训练数据

该模型使用 LLaVA-v1.5 数据混合进行训练，具体如下：

55.8 万个经过过滤的图像 - 文本对，来自 LAION/CC/SBU，由 BLIP 加了字幕。
15.8 万个由 GPT 生成的多模态指令跟随数据。
45 万个面向学术任务的 VQA 数据混合。
4 万个 ShareGPT 数据。

定量分析

LLaVA-Gemma 模型在七个基准测试中的性能。高亮框表示 LLaVA-Gemma 模型中表现最强的。最后两行分别显示了 Llava Phi-2 和 LLaVA-v1.5 的自我报告性能。加粗的 gemma-2b-it 是本模型卡片中当前使用的模型。

语言模型主干	视觉模型	预训练连接器	GQA	MME 认知	MME 感知	MM-Vet	POPE 准确率	POPE F1 值	VQAv2	ScienceQA 图像	MMVP
gemma-2b-it	CLIP	是	0.531	236	1130	17.7	0.850	0.839	70.65	0.564	0.287
gemma-2b-it	CLIP	否	0.481	248	935	13.1	0.784	0.762	61.74	0.549	0.180
gemma-2b-it	DinoV2	是	0.587	307	1133	19.1	0.853	0.838	71.37	0.555	0.227
gemma-2b-it	DinoV2	否	0.501	309	959	14.5	0.793	0.772	61.65	0.568	0.180

gemma-7b-it	CLIP	是	0.472	253	895	18.2	0.848	0.829	68.7	0.625	0.327
gemma-7b-it	CLIP	否	0.472	278	857	19.1	0.782	0.734	65.1	0.636	0.240
gemma-7b-it	DinoV2	是	0.519	257	1021	14.3	0.794	0.762	65.2	0.628	0.327
gemma-7b-it	DinoV2	否	0.459	226	771	12.2	0.693	0.567	57.4	0.598	0.267

Phi-2b	CLIP	是	-	-	1335	28.9	-	0.850	71.4	0.684	-
Llama-2-7b	CLIP	是	0.620	348	1511	30.6	0.850	0.859	78.5	0.704	46.1

伦理考量

英特尔致力于尊重人权，避免对人权造成或促成不利影响。请参阅英特尔全球人权原则。英特尔的产品和软件仅用于不会对人权造成或促成不利影响的应用。

伦理考量	描述
数据	该模型使用上述 LLaVA-v1.5 数据混合进行训练。
人类生活	该模型并非用于为对人类生活或福祉至关重要的决策提供信息。
缓解措施	在模型开发过程中未考虑额外的风险缓解策略。
风险和危害	该模型尚未评估危害或偏差，不应用于可能造成危害的敏感应用。
使用案例	-

注意事项和建议

用户（直接用户和下游用户）应了解该模型的风险、偏差和局限性。

引用详情

@misc{hinck2024llavagemma,
      title={LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model}, 
      author={Musashi Hinck and Matthew L. Olson and David Cobbley and Shao-Yen Tseng and Vasudev Lal},
      year={2024},
      eprint={2404.01331},
      url={https://arxiv.org/abs/2404.01331},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}