TinyLLaVA开源多模态模型 - 免费部署高效处理视觉-语言任务

首页

Tinyllava OpenELM 450M SigLIP 0.89B

由 jiajunlong 开发

TinyLLaVA 是一个小规模的多模态模型系列，该模型由 OpenELM-450M 和 SigLIP-0.89B 组成，专注于高效的视觉-语言任务处理。

文本生成图像

Transformers

开源协议:Apache-2.0 #小规模多模态 #高效视觉问答 #轻量级LLM集成

下载量 102

发布时间 : 4/29/2024

模型简介

TinyLLaVA 是一个轻量级的多模态模型，结合了语言模型和视觉模型，能够处理图像和文本的联合任务。

模型特点

轻量高效

模型参数规模小，适合资源受限的环境，同时性能优于部分更大规模的模型。

多模态支持

能够同时处理图像和文本输入，完成视觉问答等任务。

模块化设计

支持多种语言模型和视觉模型的组合，灵活性高。

模型能力

视觉问答

图像描述生成

多模态理解

文本生成

使用案例

教育

视觉问答

回答关于图像内容的问题，适用于教育场景中的互动学习。

在VQAv2数据集上达到71.74的准确率。

内容生成

图像描述生成

为图像生成详细的文本描述，适用于无障碍服务或内容标注。

🚀 TinyLLaVA

TinyLLaVA发布了一系列小规模的大多模态模型（LMMs），模型规模从0.55B到3.1B不等。我们表现最优的模型TinyLLaVA - Phi - 2 - SigLIP - 3.1B，在整体性能上优于现有的7B模型，如LLaVA - 1.5和Qwen - VL。

🚀 快速开始

模型介绍

这里，我们介绍TinyLLaVA - OpenELM - 450M - SigLIP - 0.89B，该模型由TinyLLaVA Factory代码库训练得到。对于大语言模型（LLM）和视觉塔，我们分别选择了[OpenELM - 450M - Instruct](apple/OpenELM - 450M - Instruct)和[siglip - so400m - patch14 - 384](https://huggingface.co/google/siglip - so400m - patch14 - 384)。训练此模型使用的数据集是[LLaVA](https://github.com/haotian - liu/LLaVA/blob/main/docs/Data.md)数据集。

使用示例

基础用法

执行以下测试代码：

from transformers import AutoTokenizer, AutoModelForCausalLM
hf_path = 'jiajunlong/TinyLLaVA-OpenELM-450M-SigLIP-0.89B'
model = AutoModelForCausalLM.from_pretrained(hf_path, trust_remote_code=True)
model.cuda()
config = model.config
tokenizer = AutoTokenizer.from_pretrained(hf_path, use_fast=False, model_max_length = config.tokenizer_model_max_length,padding_side = config.tokenizer_padding_side)
prompt="What are these?"
image_url="http://images.cocodataset.org/test-stuff2017/000000000001.jpg"
output_text, genertaion_time = model.chat(prompt=prompt, image=image_url, tokenizer=tokenizer)
print('model output:', output_text)
print('runing time:', genertaion_time)

结果展示

模型名称	GQA	TextVQA	SQA	VQAv2	MME	MMB	MM - VET
[TinyLLaVA - 1.5B](https://huggingface.co/bczhou/TinyLLaVA - 1.5B)	60.3	51.7	60.3	76.9	1276.5	55.2	25.8
[TinyLLaVA - 0.89B](https://huggingface.co/jiajunlong/TinyLLaVA - OpenELM - 450M - SigLIP - 0.89B)	53.87	44.02	54.09	71.74	1118.75	37.8	20