语言:
- 英文
许可证名称: 英特尔研究使用许可证
许可证链接: LICENSE.md
基础模型: google/gemma-2b-it
标签:
- 大语言模型
- 英特尔
模型索引:
- 名称: llava-gemma-2b
结果:
- 任务:
类型: 大语言模型
名称: 大语言模型
指标:
- 类型: GQA
名称: GQA
值: 0.531
- 类型: MME认知
名称: MME认知
值: 236
- 类型: MME感知
名称: MME感知
值: 1130
- 类型: MM-Vet
名称: MM-Vet
值: 17.7
- 类型: POPE准确率
名称: POPE准确率
值: 0.850
- 类型: POPE F1
名称: POPE F1
值: 0.839
- 类型: VQAv2
名称: VQAv2
值: 70.7
- 类型: MMVP
名称: MMVP
值: 0.287
- 类型: ScienceQA图像
名称: ScienceQA图像
值: 0.564
库名称: transformers
管道标签: 图像文本到文本
模型详情: LLaVA-Gemma-2b
llava-gemma-2b
是一个大型多模态模型(LMM),采用LLaVA-v1.5框架训练,以20亿参数的google/gemma-2b-it模型为语言主干,结合基于CLIP的视觉编码器。
本模型卡由Benjamin Consolvo和上述作者创建。
预期用途
预期用途 |
描述 |
主要预期用途 |
该模型已针对多模态基准评估进行了微调,但也可用作多模态聊天机器人。 |
主要预期用户 |
使用或评估多模态模型的任何人。 |
超出范围的用途 |
该模型不适用于需要高度事实性、高风险情况、心理健康或医疗应用、生成错误或虚假信息、冒充他人、促进或煽动骚扰或暴力、任何可能导致违反《联合国人权宣言》人权的用途。 |
使用方法
使用llava-gemma
需要修改的预处理器,如果您的transformers版本低于4.41.1。
当前使用方法请参见usage.py
或以下代码块:
import requests
from PIL import Image
from transformers import (
LlavaForConditionalGeneration,
AutoTokenizer,
AutoProcessor,
CLIPImageProcessor
)
checkpoint = "Intel/llava-gemma-2b"
model = LlavaForConditionalGeneration.from_pretrained(checkpoint)
processor = AutoProcessor.from_pretrained(checkpoint)
prompt = processor.tokenizer.apply_chat_template(
[{'role': 'user', 'content': "<image>\n图片内容是什么?"}],
tokenize=False,
add_generation_prompt=True
)
url = "https://www.ilankelman.org/stopsigns/australia.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=prompt, images=image, return_tensors="pt")
generate_ids = model.generate(**inputs, max_length=30)
output = processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
print(output)
作为聊天机器人(无图像)直接使用时,可以修改最后一部分代码如下:
prompt = processor.tokenizer.apply_chat_template(
[{'role': 'user', 'content': "总结以下段落?在本文中,我们介绍了LLaVA-Gemma,这是一种紧凑的视觉语言模型,利用了Gemma大语言模型的两个变体,Gemma-2B和Gemma-7B。我们的工作为研究人员提供了一个独特的机会,探索小型模型中计算效率和多模态理解之间的权衡。两种变体的可用性使得比较分析成为可能,揭示了模型大小如何影响各种任务的性能。我们的评估展示了LLaVA-Gemma在一系列数据集上的多功能性和有效性,突出了其作为未来小型视觉语言模型研究基准的潜力。通过这些模型,未来的实践者可以更直接地优化小型多模态模型的性能。"}],
tokenize=False,
add_generation_prompt=True
)
inputs = processor(text=prompt, images=None, return_tensors="pt")
generate_ids = model.generate(**inputs, max_length=300)
output = processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
print(output)
影响因素
因素 |
描述 |
群体 |
- |
工具 |
- |
环境 |
在8个英特尔Gaudi 2 AI加速器上训练4小时。 |
卡片提示 |
模型训练和部署在替代硬件和软件上会改变模型性能 |
指标
指标 |
描述 |
模型性能测量 |
我们评估LLaVA-Gemma模型与其他LMM工作类似的基准集合:GQA;MME;MM-Vet;POPE(准确率和F1);VQAv2;MMVP;ScienceQA的图像子集。我们的实验提供了对LLaVA框架内各种设计选择有效性的见解。 |
决策阈值 |
- |
不确定性和可变性方法 |
- |
训练数据
该模型使用LLaVA-v1.5数据混合训练。具体如下:
- 来自LAION/CC/SBU的558K过滤图像-文本对,由BLIP标注。
- 158K GPT生成的多模态指令跟随数据。
- 450K学术任务导向的VQA数据混合。
- 40K ShareGPT数据。
定量分析
LLaVA-Gemma模型在七个基准上的性能。高亮框表示LLaVA-Gemma模型中最强的性能。底部两行显示了Llava Phi-2和LLaVA-v1.5的自我报告性能。加粗的gemma-2b-it是本模型卡中使用的当前模型。
语言模型主干 |
视觉模型 |
预训练连接器 |
GQA |
MME认知 |
MME感知 |
MM-Vet |
POPE准确率 |
POPE F1 |
VQAv2 |
ScienceQA图像 |
MMVP |
gemma-2b-it |
CLIP |
是 |
0.531 |
236 |
1130 |
17.7 |
0.850 |
0.839 |
70.65 |
0.564 |
0.287 |
gemma-2b-it |
CLIP |
否 |
0.481 |
248 |
935 |
13.1 |
0.784 |
0.762 |
61.74 |
0.549 |
0.180 |
gemma-2b-it |
DinoV2 |
是 |
0.587 |
307 |
1133 |
19.1 |
0.853 |
0.838 |
71.37 |
0.555 |
0.227 |
gemma-2b-it |
DinoV2 |
否 |
0.501 |
309 |
959 |
14.5 |
0.793 |
0.772 |
61.65 |
0.568 |
0.180 |
|
|
|
|
|
|
|
|
|
|
|
|
gemma-7b-it |
CLIP |
是 |
0.472 |
253 |
895 |
18.2 |
0.848 |
0.829 |
68.7 |
0.625 |
0.327 |
gemma-7b-it |
CLIP |
否 |
0.472 |
278 |
857 |
19.1 |
0.782 |
0.734 |
65.1 |
0.636 |
0.240 |
gemma-7b-it |
DinoV2 |
是 |
0.519 |
257 |
1021 |
14.3 |
0.794 |
0.762 |
65.2 |
0.628 |
0.327 |
gemma-7b-it |
DinoV2 |
否 |
0.459 |
226 |
771 |
12.2 |
0.693 |
0.567 |
57.4 |
0.598 |
0.267 |
|
|
|
|
|
|
|
|
|
|
|
|
Phi-2b |
CLIP |
是 |
- |
- |
1335 |
28.9 |
- |
0.850 |
71.4 |
0.684 |
- |
Llama-2-7b |
CLIP |
是 |
0.620 |
348 |
1511 |
30.6 |
0.850 |
0.859 |
78.5 |
0.704 |
46.1 |
伦理考量
英特尔致力于尊重人权,避免造成或促成对人权的负面影响。参见英特尔全球人权原则。英特尔的产品和软件仅用于不会造成或促成对人权负面影响的应用程序。
伦理考量 |
描述 |
数据 |
该模型使用上述LLaVA-v1.5数据混合训练。 |
人类生活 |
该模型不用于影响人类生活或繁荣的核心决策。 |
缓解措施 |
模型开发过程中未考虑额外的风险缓解策略。 |
风险和危害 |
该模型未评估危害或偏见,不应用于可能造成危害的敏感应用。 |
用例 |
- |
注意事项和建议
用户(直接和下游)应了解模型的风险、偏见和局限性。
引用详情
@misc{hinck2024llavagemma,
title={LLaVA-Gemma: 利用紧凑语言模型加速多模态基础模型},
author={Musashi Hinck and Matthew L. Olson and David Cobbley and Shao-Yen Tseng and Vasudev Lal},
year={2024},
eprint={2404.01331},
url={https://arxiv.org/abs/2404.01331},
archivePrefix={arXiv},
primaryClass={cs.CL}
}