llava-gemma-7b开源多模态模型 - 轻松实现多模态理解与内容生成

首页

Llava Gemma 7b

由 Intel 开发

LLaVA-Gemma-7b是基于LLaVA-v1.5框架训练的大型多模态模型，采用google/gemma-7b-it作为语言主干，结合CLIP视觉编码器，适用于多模态理解和生成任务。

图像生成文本

Transformers

英语#多模态对话 #紧凑视觉语言 #Gemma主干

下载量 161

发布时间 : 3/26/2024

模型简介

该模型是一个大型多模态模型(LMM)，能够处理图像和文本输入，生成文本输出，适用于多模态聊天机器人和多模态基准评估。

模型特点

多模态理解

能够同时处理图像和文本输入，理解两者之间的关系

高效训练

在8个英特尔Gaudi 2 AI加速器上仅需4小时训练

紧凑模型

基于70亿参数的Gemma模型，在保持性能的同时减少计算资源需求

模型能力

图像理解

文本生成

多模态对话

视觉问答

使用案例

多模态聊天机器人

图像描述生成

根据输入图像生成描述性文本

在VQAv2基准测试中达到68.7的准确率

多模态对话

结合图像和文本进行自然对话

在MM-Vet基准测试中达到18.2分

学术研究

多模态模型研究

用于探索小规模模型中计算效率与多模态理解之间的权衡

提供Gemma-2B和Gemma-7B两种变体供比较分析

🚀 LLaVA-Gemma-7b大语言模型

llava-gemma-7b 是一个大型多模态模型（LMM），它基于 LLaVA-v1.5框架进行训练，以拥有70亿参数的 google/gemma-7b-it 模型作为语言主干，并采用基于CLIP的视觉编码器。

注意: 截至2024年6月3日，我们尚未将该模型的权重转换为HuggingFace LLaVA格式。完成转换后，此模型卡片将进行更新。

✨ 主要特性

基于LLaVA-v1.5框架训练，结合了强大的语言模型和视觉编码器，实现多模态处理。
可用于多模态基准评估，也能作为多模态聊天机器人使用。

📦 安装指南

目前，使用 llava-gemma 需要一个修改后的预处理器。我们目前正在对 LlavaProcessor 类进行修改，以简化使用流程（请参阅 PR #30030），请期待后续更新。

💻 使用示例

基础用法

import requests
from PIL import Image
from transformers import (
  LlavaForConditionalGeneration,
  AutoTokenizer,
  CLIPImageProcessor
)
from processing_llavagemma import LlavaGemmaProcessor # This is in this repo

checkpoint = "Intel/llava-gemma-7b"

# Load model
model = LlavaForConditionalGeneration.from_pretrained(checkpoint)
processor = LlavaGemmaProcessor(
    tokenizer=AutoTokenizer.from_pretrained(checkpoint),
    image_processor=CLIPImageProcessor.from_pretrained(checkpoint)
)

# Prepare inputs
# Use gemma chat template
prompt = processor.tokenizer.apply_chat_template(
    [{'role': 'user', 'content': "<image>\nWhat's the content of the image?"}],
    tokenize=False,
    add_generation_prompt=True
)
url = "https://www.ilankelman.org/stopsigns/australia.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=prompt, images=image, return_tensors="pt")

# Generate
generate_ids = model.generate(**inputs, max_length=30)
output = processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
print(output)

高级用法

若要将其作为聊天机器人直接使用（不涉及图像），可以将代码的最后部分修改为以下内容：

# Prepare inputs
# Use gemma chat template
prompt = processor.tokenizer.apply_chat_template(
    [{'role': 'user', 'content': "Summarize the following paragraph? In this paper, we introduced LLaVA-Gemma, a compact vision-language model leveraging the Gemma Large Language Model in two variants, Gemma-2B and Gemma-7B. Our work provides a unique opportunity for researchers to explore the trade-offs between computational efficiency and multimodal understanding in small-scale models. The availability of both variants allows for a comparative analysis that sheds light on how model size impacts performance in various tasks. Our evaluations demonstrate the versatility and effectiveness of LLaVA-Gemma across a range of datasets, highlighting its potential as a benchmark for future research in small-scale vision-language models. With these models, future practitioners can optimize the performance of small-scale multimodal models more directly."}],
    tokenize=False,
    add_generation_prompt=True
)
# url = "https://www.ilankelman.org/stopsigns/australia.jpg"
# image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=prompt, images=None, return_tensors="pt")

# Generate
generate_ids = model.generate(**inputs, max_length=300)
output = processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
print(output)

📚 详细文档

模型详情

属性	详情
作者	Intel: Musashi Hinck、Matthew Olson、David Cobbley、Shao-Yen Tseng、Vasudev Lal
日期	2024年3月
版本	1
模型类型	大型多模态模型（LMM）
论文或其他资源	LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model
许可证	Gemma
问题或评论	社区板块和 Intel DevHub Discord

预期用途

预期用途	描述
主要预期用途	该模型已针对多模态基准评估进行了微调，但也可用作多模态聊天机器人。
主要预期用户	任何使用或评估多模态模型的人员。
非预期用途	此模型不适用于需要高度事实性的用途、高风险场景、心理健康或医疗应用、生成错误信息或虚假信息、冒充他人、助长或煽动骚扰或暴力，以及任何可能导致违反《联合国人权宣言》所规定人权的用途。

影响因素

因素	描述
群体	-
检测手段	-
环境	在8个英特尔Gaudi 2 AI加速器上训练了4小时。
卡片提示	在其他硬件和软件上进行模型训练和部署会改变模型性能。

评估指标

指标	描述
模型性能度量	我们在与其他LMM研究类似的基准测试集上对LlaVA-Gemma模型进行了评估，包括GQA、MME、MM-Vet、POPE（准确率和F1值）、VQAv2、MMVP以及ScienceQA的图像子集。我们的实验为LLaVA框架内各种设计选择的有效性提供了见解。
决策阈值	-
不确定性和变异性处理方法	-

训练数据

该模型使用LLaVA-v1.5数据混合进行训练，具体如下：

55.8万个经过筛选的图像 - 文本对，来自LAION/CC/SBU，由BLIP添加了标题。
15.8万个由GPT生成的多模态指令跟随数据。
45万个面向学术任务的VQA数据混合。
4万个ShareGPT数据。

定量分析

LLaVA-Gemma模型在七个基准测试中的性能。高亮框表示LLaVA-Gemma模型中表现最强的部分。最后两行分别显示了Llava Phi - 2和LLaVA-v1.5的自我报告性能。加粗的 gemma-7b-it 是本模型卡片中当前使用的模型。

语言模型主干	视觉模型	预训练连接器	GQA	MME认知	MME感知	MM-Vet	POPE准确率	POPE F1值	VQAv2	ScienceQA图像	MMVP
gemma-2b-it	CLIP	是	0.531	236	1130	17.7	0.850	0.839	70.65	0.564	0.287
gemma-2b-it	CLIP	否	0.481	248	935	13.1	0.784	0.762	61.74	0.549	0.180
gemma-2b-it	DinoV2	是	0.587	307	1133	19.1	0.853	0.838	71.37	0.555	0.227
gemma-2b-it	DinoV2	否	0.501	309	959	14.5	0.793	0.772	61.65	0.568	0.180
gemma-7b-it	CLIP	是	0.472	253	895	18.2	0.848	0.829	68.7	0.625	0.327
gemma-7b-it	CLIP	否	0.472	278	857	19.1	0.782	0.734	65.1	0.636	0.240
gemma-7b-it	DinoV2	是	0.519	257	1021	14.3	0.794	0.762	65.2	0.628	0.327
gemma-7b-it	DinoV2	否	0.459	226	771	12.2	0.693	0.567	57.4	0.598	0.267
Phi-2b	CLIP	是	-	-	1335	28.9	-	0.850	71.4	0.684	-
Llama-2-7b	CLIP	是	0.620	348	1511	30.6	0.850	0.859	78.5	0.704	46.1

伦理考量

英特尔致力于尊重人权，避免对人权造成或促成不利影响。请参阅英特尔全球人权原则。英特尔的产品和软件仅旨在用于不会对人权造成或促成不利影响的应用程序。

伦理考量	描述
数据	该模型使用上述LLaVA-v1.5数据混合进行训练。
人类生命	此模型并非用于为对人类生命或福祉至关重要的决策提供信息。
缓解措施	在模型开发过程中未考虑额外的风险缓解策略。
风险和危害	此模型尚未进行危害或偏差评估，不应用于可能造成危害的敏感应用。
使用案例	-

注意事项和建议

用户（包括直接用户和下游用户）应了解该模型的风险、偏差和局限性。

引用详情

@misc{hinck2024llavagemma,
      title={LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model}, 
      author={Musashi Hinck and Matthew L. Olson and David Cobbley and Shao-Yen Tseng and Vasudev Lal},
      year={2024},
      eprint={2404.01331},
      url={https://arxiv.org/abs/2404.01331},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}