Tinyllava 3.1B

由 bczhou 开发

TinyLLaVA是一个小规模大型多模态模型框架，在保持高性能的同时显著减少参数数量。3.1B版本在多项基准测试中超越7B规模的同类模型。

文本生成图像

Transformers

支持多种语言

开源协议:Apache-2.0 #小规模多模态 #视觉语言理解 #高效推理

下载量 184

发布时间 : 2/22/2024

模型介绍

内容详情

替代品

模型简介

TinyLLaVA是一个高效的多模态模型框架，专注于视觉语言理解任务，通过精心设计的架构在减少参数量的同时保持优异性能。

模型特点

高效小规模架构

仅3.1B参数却超越7B规模模型的性能

多模态能力

同时处理视觉和语言输入，实现跨模态理解

双语支持

原生支持英文和中文的视觉语言任务

开源可用

采用Apache-2.0许可证，允许商业和研究使用

模型能力

图像理解与描述

视觉问答

多模态对话

跨模态推理

文本生成

使用案例

智能助手

图像内容描述

为视觉障碍用户描述图像内容

在LLaVA-Bench-Wild上达到75.8分

视觉问答系统

回答关于图像内容的复杂问题

在VQA-v2上达到79.9分

教育应用

科学图解分析

帮助学生理解复杂的科学图表

在MMBench上达到66.9分

许可证：Apache-2.0
数据集：

Lin-Chen/ShareGPT4V
liuhaotian/LLaVA-Pretrain
liuhaotian/LLaVA-Instruct-150K
语言：
英文
中文
标签：
llava
视觉语言
大语言模型
多模态模型

TinyLLaVA：小规模大型多模态模型框架

🎉 最新动态

[2024.03.10] 基础配方发布！
[2024.03.10] 微调脚本发布！
[2024.02.25] 更新评估脚本和文档！
[2024.02.25] 数据描述发布。推出TinyLLaVA-1.5B和TinyLLaVA-2.0B！
[2024.02.24] 添加推理和模型加载示例代码！
[2024.02.23] 评估代码和脚本发布！
[2024.02.21] 在GitHub上创建TinyLLaVABench仓库！
[2024.02.21] 我们的论文：TinyLLaVA：小规模大型多模态模型框架发布！
[2024.01.11] 我们的首个模型TinyLLaVA-1.4B发布！

⏳ 待办事项

[ ] 添加对Ollama和llama.cpp的支持。
[x] 开发者指南/如何本地构建演示。
[x] 训练和自定义微调文档。
[x] 模型库描述。
[x] 示例和推理。
[x] 发布训练代码。
[x] 添加评估描述。
[x] 添加数据准备描述。
[x] 发布TinyLLaVA-1.5B和TinyLLaVA-2.0B。
[x] 发布TinyLLaVA-3.1B。
[x] 今天（2024.2.23）发布评估代码和权重。

🔥 高性能，但参数更少

我们的最佳模型TinyLLaVA-3.1B在整体性能上优于现有的7B模型，如LLaVA-1.5和Qwen-VL。

🔧 要求和安装

我们推荐以下要求。

克隆此仓库并进入TinyLLaVA文件夹

git clone https://github.com/DLCV-BUAA/TinyLLaVABench.git  
cd TinyLLaVABench

安装包

conda create -n tinyllava python=3.10 -y  
conda activate tinyllava  
pip install --upgrade pip  # 启用PEP 660支持  
pip install -e .

为训练案例安装额外包

pip install -e ".[train]"  
pip install flash-attn --no-build-isolation

升级到最新代码库

git pull  
pip install -e .  

# 如果升级时看到一些导入错误，请尝试运行以下命令（不带#）  
# pip install flash-attn --no-build-isolation --no-cache-dir

🐳 模型库

旧版模型

tiny-llava-hf

预训练模型

模型详情

名称	大语言模型	检查点	LLaVA-Bench-Wild	MME	MMBench	MM-Vet	SQA-image	VQA-v2	GQA	TextVQA
TinyLLaVA-3.1B	Phi-2	TinyLLaVA-3.1B	75.8	1464.9	66.9	32.0	69.1	79.9	62.0	59.1
TinyLLaVA-2.0B	StableLM-2-1.6B	TinyLLaVA-2.0B	66.4	1433.8	63.3	32.6	64.7	78.9	61.9	56.4
TinyLLaVA-1.5B	TinyLlama	TinyLLaVA-1.5B	60.8	1276.5	55.2	25.8	60.3	76.9	60.3	51.7

演示

Gradio网页演示

通过运行以下命令启动本地网页演示：

python tinyllava/serve/app.py --model-path bczhou/TinyLLaVA-3.1B --model-name TinyLLaVA-3.1B

命令行推理

我们也支持通过命令行运行推理。使用我们的模型，运行：

python -m tinyllava.serve.cli \  
    --model-path bczhou/TinyLLaVA-3.1B \  
    --image-file "./tinyllava/serve/examples/extreme_ironing.jpg"

🔧 快速开始

加载模型

from tinyllava.model.builder import load_pretrained_model  
from tinyllava.mm_utils import get_model_name_from_path  
from tinyllava.eval.run_tiny_llava import eval_model  

model_path = "bczhou/TinyLLaVA-3.1B"  

tokenizer, model, image_processor, context_len = load_pretrained_model(  
    model_path=model_path,  
    model_base=None,  
    model_name=get_model_name_from_path(model_path)

🔧 运行推理

以下是使用TinyLLaVA-3.1B运行推理的示例。

运行推理

from tinyllava.model.builder import load_pretrained_model  
from tinyllava.mm_utils import get_model_name_from_path  
from tinyllava.eval.run_tiny_llava import eval_model  

model_path = "bczhou/TinyLLaVA-3.1B"  
prompt = "What are the things I should be cautious about when I visit here?"  
image_file = "https://llava-vl.github.io/static/images/view.jpg"  

args = type('Args', (), {  
    "model_path": model_path,  
    "model_base": None,  
    "model_name": get_model_name_from_path(model_path),  
    "query": prompt,  
    "conv_mode": "phi",  
    "image_file": image_file,  
    "sep": ",",  
    "temperature": 0,  
    "top_p": None,  
    "num_beams": 1,  
    "max_new_tokens": 512  
})()  

eval_model(args)

重要提示

我们对不同的模型使用不同的conv_mode。根据下表替换args中的conv_mode：

模型	对话模式
TinyLLaVA-3.1B	phi
TinyLLaVA-2.0B	phi
TinyLLaVA-1.5B	v1

评估

为确保可重复性，我们使用贪婪解码评估模型。

参见评估.md

数据准备

在我们的论文中，我们使用了两个不同的数据集：LLaVA数据集和ShareGPT4V数据集，并比较了它们的差异。在本节中，我们提供数据准备的信息。

预训练图像

LLaVA：LLaVA的预训练图像来自LAION-CC-SBU数据集的558K子集。
ShareGPT4V：ShareGPT4V的预训练图像是558K LAION-CC-SBU子集、SAM数据集和COCO数据集的混合。

预训练标注

LLaVA：LLaVA的预训练标注在这里。
ShareGPT4V：ShareGPT4V的预训练标注在这里。

SFT图像和标注

两个SFT数据集的大部分内容相同，只是LLaVA-1.5-SFT中的23K详细描述数据被从100K ShareGPT4V数据中随机采样的详细标题替换。

下载数据

下载相关图像

LAION-CC-SBU-558K：images.zip
COCO：此数据集来自COCO2017挑战赛。下载：train2017
WebData：此数据集由ShareGPT4V项目整理。下载：images。仅用于学术用途。
SAM：此数据集由Meta收集。下载：images。我们目前仅使用000000~000050.tar。如果您只想使用ShareGPT4V进行SFT，可以快速从这里下载9K图像。
GQA：[GQA项目页面