Tinyllava 2.0B

由 bczhou 开发

TinyLLaVA是一个小型大规模多模态模型框架，在保持高性能的同时显著减少参数数量。

文本生成图像

Transformers

支持多种语言

开源协议:Apache-2.0 #小规模多模态 #高效视觉语言 #轻量级LLM

下载量 562

发布时间 : 2/24/2024

模型介绍

内容详情

替代品

模型简介

TinyLLaVA是一个高效的视觉语言模型，专注于图文生成任务，能够在减少参数量的同时保持出色的多模态理解能力。

模型特点

高效性能

在参数更少的情况下，性能优于更大的7B模型如LLaVA-1.5和Qwen-VL

多模态能力

同时处理视觉和语言信息，实现高质量的图文生成和理解

轻量化设计

通过精心设计的架构，在保持性能的同时显著减少模型参数

模型能力

视觉问答

图像描述生成

多模态对话

图文理解

跨模态推理

使用案例

智能助手

图像内容问答

用户上传图片后，模型可以回答关于图片内容的各类问题

在LLaVA-Bench-Wild上达到75.8分

教育

视觉学习辅助

帮助学生理解复杂图表和视觉内容

在ScienceQA-image上达到69.1分

许可证：Apache-2.0
数据集：

Lin-Chen/ShareGPT4V
liuhaotian/LLaVA-Pretrain
liuhaotian/LLaVA-Instruct-150K
语言：
英文
中文
标签：
llava
视觉语言
大语言模型
多模态模型
任务类型：图文生成

TinyLLaVA：小型大规模多模态模型框架

🎉 最新动态

[2024.03.10] 基础配方发布！
[2024.03.10] 微调脚本发布！
[2024.02.25] 更新评估脚本和文档！
[2024.02.25] 数据描述发布。推出TinyLLaVA-1.5B和TinyLLaVA-2.0B！
[2024.02.24] 添加推理和模型加载的示例代码！
[2024.02.23] 评估代码和脚本发布！
[2024.02.21] 在GitHub上创建TinyLLaVABench仓库！
[2024.02.21] 我们的论文：TinyLLaVA：小型大规模多模态模型框架发布！
[2024.01.11] 我们的首个模型TinyLLaVA-1.4B发布！

⌛ 待办事项

[ ] 添加对Ollama和llama.cpp的支持。
[x] 开发者指南/如何本地构建演示。
[x] 训练和自定义微调文档。
[x] 模型库描述。
[x] 示例和推理。
[x] 发布训练代码。
[x] 添加评估描述。
[x] 添加数据准备描述。
[x] 发布TinyLLaVA-1.5B和TinyLLaVA-2.0B。
[x] 发布TinyLLaVA-3.1B。
[x] 今天（2024.2.23）发布评估代码和权重。

🔥 高性能，但参数更少

我们的最佳模型TinyLLaVA-3.1B在整体性能上优于现有的7B模型，如LLaVA-1.5和Qwen-VL。

🔧 要求和安装

我们推荐以下要求。

克隆此仓库并进入TinyLLaVA文件夹

git clone https://github.com/DLCV-BUAA/TinyLLaVABench.git  
cd TinyLLaVABench

安装包

conda create -n tinyllava python=3.10 -y  
conda activate tinyllava  
pip install --upgrade pip  # 启用PEP 660支持  
pip install -e .

为训练案例安装额外包

pip install -e ".[train]"  
pip install flash-attn --no-build-isolation

升级到最新代码库

git pull  
pip install -e .  

# 如果升级时看到一些导入错误，请尝试运行以下命令（不带#）  
# pip install flash-attn --no-build-isolation --no-cache-dir

🐳 模型库

旧版模型

tiny-llava-hf

预训练模型

模型详情

名称	大语言模型	检查点	LLaVA-Bench-Wild	MME	MMBench	MM-Vet	SQA-image	VQA-v2	GQA	TextVQA
TinyLLaVA-3.1B	Phi-2	TinyLLaVA-3.1B	75.8	1464.9	66.9	32.0	69.1	79.9	62.0	59.1
TinyLLaVA-2.0B	StableLM-2-1.6B	TinyLLaVA-2.0B	66.4	1433.8	63.3	32.6	64.7	78.9	61.9	56.4
TinyLLaVA-1.5B	TinyLlama	TinyLLaVA-1.5B	60.8	1276.5	55.2	25.8	60.3	76.9	60.3	51.7

演示

Gradio网页演示

通过运行以下命令启动本地网页演示：

python tinyllava/serve/app.py --model-path bczhou/TinyLLaVA-3.1B --model-name TinyLLaVA-3.1B

命令行推理

我们也支持通过命令行运行推理。要使用我们的模型，运行：

python -m tinyllava.serve.cli \  
    --model-path bczhou/TinyLLaVA-3.1B \  
    --image-file "./tinyllava/serve/examples/extreme_ironing.jpg"

🔧 快速开始

加载模型

from tinyllava.model.builder import load_pretrained_model  
from tinyllava.mm_utils import get_model_name_from_path  
from tinyllava.eval.run_tiny_llava import eval_model  

model_path = "bczhou/TinyLLaVA-3.1B"  

tokenizer, model, image_processor, context_len = load_pretrained_model(  
    model_path=model_path,  
    model_base=None,  
    model_name=get_model_name_from_path(model_path)

🔧 运行推理

这里有一个使用TinyLLaVA-3.1B运行推理的示例。

运行推理

from tinyllava.model.builder import load_pretrained_model  
from tinyllava.mm_utils import get_model_name_from_path  
from tinyllava.eval.run_tiny_llava import eval_model  

model_path = "bczhou/TinyLLaVA-3.1B"  
prompt = "What are the things I should be cautious about when I visit here?"  
image_file = "https://llava-vl.github.io/static/images/view.jpg"  

args = type('Args', (), {  
    "model_path": model_path,  
    "model_base": None,  
    "model_name": get_model_name_from_path(model_path),  
    "query": prompt,  
    "conv_mode": "phi",  
    "image_file": image_file,  
    "sep": ",",  
    "temperature": 0,  
    "top_p": None,  
    "num_beams": 1,  
    "max_new_tokens": 512  
})()  

eval_model(args)

重要提示

我们对不同模型使用不同的conv_mode。根据下表替换args中的conv_mode：

模型	对话模式
TinyLLaVA-3.1B	phi
TinyLLaVA-2.0B	phi
TinyLLaVA-1.5B	v1

评估

为确保可复现性，我们使用贪婪解码评估模型。

参见评估文档

数据准备

在我们的论文中，我们使用了两个不同的数据集：LLaVA数据集和ShareGPT4V数据集，并比较了它们的差异。在本节中，我们提供数据准备的信息。

预训练图像

LLaVA：LLaVA的预训练图像来自LAION-CC-SBU数据集的558K子集。
ShareGPT4V：ShareGPT4V的预训练图像是558K LAION-CC-SBU子集、SAM数据集和COCO数据集的混合。

预训练标注

LLaVA：LLaVA的预训练标注在这里。
ShareGPT4V：ShareGPT4V的预训练标注在这里。

SFT图像和标注

两个SFT数据集的大部分相同，除了LLaVA-1.5-SFT中的23K详细描述数据被替换为从100K ShareGPT4V数据中随机采样的详细标题。

下载数据

下载相关图像

LAION-CC-SBU-558K：images.zip
COCO：此数据集来自COCO2017挑战赛。下载：train2017
WebData：此数据集由ShareGPT4V项目整理。下载：images。仅用于学术用途。
SAM：此数据集由Meta收集。下载：images。我们目前仅使用000000~000050.tar。如果您只想使用ShareGPT4V进行SFT，可以快速从[这里](https://drive.google.com/file/d/1dKumd