tinyllava-1.1b-v0.1开源视觉问答模型 - 支持图像内容理解与问答任务

首页

Tinyllava 1.1b V0.1

由 TitanML 开发

基于TinyLlama-1.1B的轻量级视觉问答模型，通过BakLlava代码库训练而成，支持图像内容理解和问答任务。

文本生成图像

Transformers

开源协议:Apache-2.0 #轻量级视觉问答 #多模态对话 #低资源部署

下载量 27

发布时间 : 6/13/2024

模型简介

这是一个结合视觉与语言能力的多模态模型，能够理解图像内容并回答相关问题。适用于需要图像理解和交互式问答的应用场景。

模型特点

轻量级架构

基于1.1B参数的TinyLlama模型，在保持性能的同时降低计算资源需求

多模态理解

能够同时处理图像和文本输入，理解图像内容并生成相关回答

开源许可

采用Apache 2.0许可证，允许商业和研究用途

模型能力

图像内容理解

视觉问答

多模态推理

使用案例

内容理解

图像描述生成

分析输入图像并生成描述性文本

可准确识别常见物体和场景

交互式应用

智能客服

回答用户关于产品图像的查询

🚀 视觉问答模型项目

本项目基于视觉问答技术，利用特定的基础模型进行训练，可对给定图像进行问答交互，为图像理解和信息获取提供了便捷的方式。

🚀 快速开始

本项目以 TinyLlama 为基础模型，借助 BakLlava 仓库进行训练。

✨ 主要特性

基于强大的基础模型进行训练，具备良好的视觉问答能力。
支持多模型对比，可在同一界面中比较不同模型的效果。

📦 安装指南

若您未使用 Linux 系统，请不要继续，可查看 macOS 和 Windows 的安装说明。

克隆仓库并进入目录

git clone https://github.com/haotian-liu/LLaVA.git
cd LLaVA

安装依赖包

conda create -n llava python=3.10 -y
conda activate llava
pip install --upgrade pip  # 启用 PEP 660 支持
pip install -e .

安装训练所需的额外包

pip install -e ".[train]"
pip install flash-attn --no-build-isolation

升级到最新代码库

git pull
pip install -e .

启动控制器

python -m llava.serve.controller --host 0.0.0.0 --port 10000

启动 Gradio 网页服务器

python -m llava.serve.gradio_web_server --controller http://localhost:10000 --model-list-mode reload

此时，您已启动了 Gradio 网页界面。现在，您可以使用屏幕上打印的 URL 打开网页界面。您可能会注意到模型列表中没有模型，不用担心，因为我们还没有启动任何模型工作器。当您启动模型工作器时，模型列表将自动更新。

启动模型工作器

这是实际在 GPU 上进行推理的 工作器。每个工作器负责 --model-path 中指定的单个模型。

python -m llava.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path ameywtf/tinyllava-1.1b-v0.1

等待进程完成模型加载，直到您看到 "Uvicorn running on ..."。现在，刷新您的 Gradio 网页界面，您将在模型列表中看到刚刚启动的模型。

您可以根据需要启动任意数量的工作器，并在同一 Gradio 界面中比较不同的模型检查点。请保持 --controller 相同，并为每个工作器将 --port 和 --worker 修改为不同的端口号。

python -m llava.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port <不同于 40000，例如 40001> --worker http://localhost:<相应更改，例如 40001> --model-path <ckpt2>

如果您使用的是带有 M1 或 M2 芯片的 Apple 设备，可以使用 --device 标志指定 mps 设备：--device mps。