语言:
- 英文
许可证名称: 英特尔研究使用许可
许可证链接: LICENSE.md
基础模型: google/gemma-7b-it
标签:
- 大语言模型
- 英特尔
模型索引:
- 名称: llava-gemma-7b
结果:
- 任务:
类型: 大语言模型
名称: 大语言模型
指标:
- 类型: GQA
名称: GQA
值: 0.472
- 类型: MME认知
名称: MME认知
值: 254
- 类型: MME感知
名称: MME感知
值: 895
- 类型: MM-Vet
名称: MM-Vet
值: 18.2
- 类型: POPE准确率
名称: POPE准确率
值: 0.848
- 类型: POPE F1
名称: POPE F1
值: 0.829
- 类型: VQAv2
名称: VQAv2
值: 68.7
- 类型: MMVP
名称: MMVP
值: 0.327
- 类型: ScienceQA图像
名称: ScienceQA图像
值: 0.625
库名称: transformers
管道标签: 图像文本到文本
模型详情: LLaVA-Gemma-7b
llava-gemma-7b
是一个基于LLaVA-v1.5框架训练的大型多模态模型(LMM),其语言主干为70亿参数的google/gemma-7b-it模型,视觉编码器基于CLIP。
注意: 截至2024年6月3日,我们尚未将此模型的权重转换为HuggingFace LLaVA格式。转换完成后将更新此模型卡。
此模型卡由Benjamin Consolvo和上述作者创建。
预期用途
预期用途 |
描述 |
主要用途 |
该模型已针对多模态基准评估进行了微调,也可用作多模态聊天机器人。 |
主要目标用户 |
使用或评估多模态模型的任何人。 |
非适用范围 |
该模型不适用于需要高度事实性、高风险场景、心理健康或医疗应用、生成错误或虚假信息、冒充他人、促进或煽动骚扰或暴力、可能导致违反《联合国人权宣言》中任何一项人权的用途。 |
使用方法
目前使用llava-gemma
需要修改后的预处理器。我们正在修改LlavaProcessor
类以简化使用(参见PR #30030)。预计很快会有更新。
当前使用方法请参考usage.py
或以下代码块:
import requests
from PIL import Image
from transformers import (
LlavaForConditionalGeneration,
AutoTokenizer,
CLIPImageProcessor
)
from processing_llavagemma import LlavaGemmaProcessor
checkpoint = "Intel/llava-gemma-7b"
model = LlavaForConditionalGeneration.from_pretrained(checkpoint)
processor = LlavaGemmaProcessor(
tokenizer=AutoTokenizer.from_pretrained(checkpoint),
image_processor=CLIPImageProcessor.from_pretrained(checkpoint)
)
prompt = processor.tokenizer.apply_chat_template(
[{'role': 'user', 'content': "<image>\n图片内容是什么?"}],
tokenize=False,
add_generation_prompt=True
)
url = "https://www.ilankelman.org/stopsigns/australia.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=prompt, images=image, return_tensors="pt")
generate_ids = model.generate(**inputs, max_length=30)
output = processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
print(output)
若仅作为聊天机器人使用(不含图像),可修改最后部分代码如下:
prompt = processor.tokenizer.apply_chat_template(
[{'role': 'user', 'content': "总结以下段落?本文介绍了LLaVA-Gemma,这是一种利用Gemma大语言模型的紧凑视觉语言模型,包含Gemma-2B和Gemma-7B两种变体。我们的工作为研究人员提供了独特机会,探索小规模模型中计算效率与多模态理解之间的权衡。两种变体的可用性使得比较分析成为可能,揭示了模型规模如何影响各种任务的性能。我们的评估展示了LLaVA-Gemma在多个数据集上的多功能性和有效性,凸显其作为未来小规模视觉语言模型研究基准的潜力。通过这些模型,未来的实践者可以更直接地优化小规模多模态模型的性能。"}],
tokenize=False,
add_generation_prompt=True
)
inputs = processor(text=prompt, images=None, return_tensors="pt")
generate_ids = model.generate(**inputs, max_length=300)
output = processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
print(output)
影响因素
因素 |
描述 |
群体 |
- |
工具 |
- |
环境 |
在8个英特尔Gaudi 2 AI加速器上训练4小时。 |
卡片提示 |
在不同硬件和软件上的模型训练和部署将改变模型性能 |
指标
指标 |
描述 |
模型性能测量 |
我们与其他LMM工作类似的基准集合上评估LLaVA-Gemma模型:GQA;MME;MM-Vet;POPE(准确率和F1);VQAv2;MMVP;ScienceQA的图像子集。我们的实验提供了对LLaVA框架内各种设计选择有效性的见解。 |
决策阈值 |
- |
不确定性和变异性处理方法 |
- |
训练数据
模型使用LLaVA-v1.5数据混合训练。具体如下:
- 来自LAION/CC/SBU的558K过滤图像-文本对,由BLIP标注。
- 158K GPT生成的多模态指令跟随数据。
- 450K学术任务导向的VQA数据混合。
- 40K ShareGPT数据。
定量分析
LLaVA-Gemma模型在七个基准上的性能。高亮框表示LLaVA-Gemma模型中最强性能。底部两行显示Llava Phi-2和LLaVA-v1.5的自我报告性能。加粗的gemma-7b-it是本模型卡中当前使用的模型。
语言主干 |
视觉模型 |
预训练连接器 |
GQA |
MME认知 |
MME感知 |
MM-Vet |
POPE准确率 |
POPE F1 |
VQAv2 |
ScienceQA图像 |
MMVP |
gemma-2b-it |
CLIP |
是 |
0.531 |
236 |
1130 |
17.7 |
0.850 |
0.839 |
70.65 |
0.564 |
0.287 |
gemma-2b-it |
CLIP |
否 |
0.481 |
248 |
935 |
13.1 |
0.784 |
0.762 |
61.74 |
0.549 |
0.180 |
gemma-2b-it |
DinoV2 |
是 |
0.587 |
307 |
1133 |
19.1 |
0.853 |
0.838 |
71.37 |
0.555 |
0.227 |
gemma-2b-it |
DinoV2 |
否 |
0.501 |
309 |
959 |
14.5 |
0.793 |
0.772 |
61.65 |
0.568 |
0.180 |
|
|
|
|
|
|
|
|
|
|
|
|
gemma-7b-it |
CLIP |
是 |
0.472 |
253 |
895 |
18.2 |
0.848 |
0.829 |
68.7 |
0.625 |
0.327 |
gemma-7b-it |
CLIP |
否 |
0.472 |
278 |
857 |
19.1 |
0.782 |
0.734 |
65.1 |
0.636 |
0.240 |
gemma-7b-it |
DinoV2 |
是 |
0.519 |
257 |
1021 |
14.3 |
0.794 |
0.762 |
65.2 |
0.628 |
0.327 |
gemma-7b-it |
DinoV2 |
否 |
0.459 |
226 |
771 |
12.2 |
0.693 |
0.567 |
57.4 |
0.598 |
0.267 |
|
|
|
|
|
|
|
|
|
|
|
|
Phi-2b |
CLIP |
是 |
- |
- |
1335 |
28.9 |
- |
0.850 |
71.4 |
0.684 |
- |
Llama-2-7b |
CLIP |
是 |
0.620 |
348 |
1511 |
30.6 |
0.850 |
0.859 |
78.5 |
0.704 |
46.1 |
伦理考量
英特尔致力于尊重人权,避免造成或助长对人权的负面影响。参见英特尔全球人权原则。英特尔的产品和软件仅用于不会造成或助长对人权负面影响的应用程序。
伦理考量 |
描述 |
数据 |
模型使用上述LLaVA-v1.5数据混合训练。 |
人类生活 |
该模型不适用于对人类生命或繁荣至关重要的决策。 |
缓解措施 |
模型开发过程中未考虑额外的风险缓解策略。 |
风险和危害 |
该模型未评估危害或偏见,不应用于可能造成危害的敏感应用。 |
用例 |
- |
注意事项和建议
用户(包括直接和下游用户)应了解模型的风险、偏见和局限性。
引用详情
@misc{hinck2024llavagemma,
title={LLaVA-Gemma: 利用紧凑语言模型加速多模态基础模型},
author={Musashi Hinck and Matthew L. Olson and David Cobbley and Shao-Yen Tseng and Vasudev Lal},
year={2024},
eprint={2404.01331},
url={https://arxiv.org/abs/2404.01331},
archivePrefix={arXiv},
primaryClass={cs.CL}
}