Video-LLaVA-7B开源多模态模型 - 免费部署处理图像视频视觉推理任务

首页

Video LLaVA 7B

由 LanguageBind 开发

Video-LLaVA是一个通过投影前对齐学习统一视觉表征的多模态模型，能够同时处理图像和视频的视觉推理任务。

文本生成视频

Transformers

开源协议:Apache-2.0 #多模态统一表征 #视频图像联合推理 #投影前对齐学习

下载量 2,066

发布时间 : 11/17/2023

模型简介

Video-LLaVA通过将统一视觉表征绑定至语言特征空间，使大语言模型能同时处理图像与视频的视觉推理任务，展现出卓越的跨模态交互能力。

模型特点

投影前对齐

通过将统一视觉表征绑定至语言特征空间，实现图像和视频的统一处理

跨模态交互

尽管数据集中不含图像-视频对，仍展现出卓越的跨模态交互能力

模态互补性

视频与图像的互补学习，相比单一模态专用模型具有显著优势

模型能力

图像理解与分析

视频理解与分析

多模态推理

视觉问答

使用案例

内容理解

视频内容分析

分析视频内容并回答相关问题

能够理解视频中的动作、场景和事件

图像内容理解

理解图像内容并进行描述

能够识别图像中的对象、场景和关系

教育

多媒体教学辅助

帮助理解教学视频和图像内容

提供对教学材料的深入理解

🚀 Video-LLaVA：通过投影前对齐学习统一视觉表示

Video-LLaVA是一个在图像和视频交互方面表现卓越的项目。它通过将统一视觉表示绑定到语言特征空间，让大语言模型能同时对图像和视频进行视觉推理。并且在多模态互补学习上性能出色，优于专门针对图像或视频的模型。

🚀 快速开始

试用演示

Gradio Web UI：强烈推荐通过以下命令试用我们的Web演示，它集成了Video-LLaVA目前支持的所有功能。我们也在Huggingface Spaces上提供了在线演示。

python -m  videollava.serve.gradio_web_server

CLI推理：

python -m videollava.serve.cli --model-path "LanguageBind/Video-LLaVA-7B" --file "path/to/your/video.mp4" --load-4bit

python -m videollava.serve.cli --model-path "LanguageBind/Video-LLaVA-7B" --file "path/to/your/image.jpg" --load-4bit

✨ 主要特性

💡 简单基线，通过投影前对齐学习统一视觉表示

通过将统一视觉表示绑定到语言特征空间，使大语言模型能够同时对图像和视频执行视觉推理能力。

🔥 高性能，视频和图像互补学习

大量实验证明了模态的互补性，与专门为图像或视频设计的模型相比，具有显著优势。

📦 安装指南

Python >= 3.10
Pytorch == 2.0.1
CUDA版本 >= 11.7
安装所需的包：

git clone https://github.com/PKU-YuanGroup/Video-LLaVA
cd Video-LLaVA
conda create -n videollava python=3.10 -y
conda activate videollava
pip install --upgrade pip  # 启用PEP 660支持
pip install -e .
pip install -e ".[train]"
pip install flash-attn --no-build-isolation
pip install decord opencv-python git+https://github.com/facebookresearch/pytorchvideo.git@28fe037d212663c6a24f373b94cc5d478c8c1a1d

💻 使用示例

基础用法

以下是图像推理的基础代码示例：

import torch
from videollava.constants import IMAGE_TOKEN_INDEX, DEFAULT_IMAGE_TOKEN
from videollava.conversation import conv_templates, SeparatorStyle
from videollava.model.builder import load_pretrained_model
from videollava.utils import disable_torch_init
from videollava.mm_utils import tokenizer_image_token, get_model_name_from_path, KeywordsStoppingCriteria

def main():
    disable_torch_init()
    image = 'videollava/serve/examples/extreme_ironing.jpg'
    inp = 'What is unusual about this image?'
    model_path = 'LanguageBind/Video-LLaVA-7B'
    cache_dir = 'cache_dir'
    device = 'cuda'
    load_4bit, load_8bit = True, False
    model_name = get_model_name_from_path(model_path)
    tokenizer, model, processor, _ = load_pretrained_model(model_path, None, model_name, load_8bit, load_4bit, device=device, cache_dir=cache_dir)
    image_processor = processor['image']
    conv_mode = "llava_v1"
    conv = conv_templates[conv_mode].copy()
    roles = conv.roles

    image_tensor = image_processor.preprocess(image, return_tensors='pt')['pixel_values']
    if type(image_tensor) is list:
        tensor = [image.to(model.device, dtype=torch.float16) for image in image_tensor]
    else:
        tensor = image_tensor.to(model.device, dtype=torch.float16)

    print(f"{roles[1]}: {inp}")
    inp = DEFAULT_IMAGE_TOKEN + '\n' + inp
    conv.append_message(conv.roles[0], inp)
    conv.append_message(conv.roles[1], None)
    prompt = conv.get_prompt()
    input_ids = tokenizer_image_token(prompt, tokenizer, IMAGE_TOKEN_INDEX, return_tensors='pt').unsqueeze(0).cuda()
    stop_str = conv.sep if conv.sep_style != SeparatorStyle.TWO else conv.sep2
    keywords = [stop_str]
    stopping_criteria = KeywordsStoppingCriteria(keywords, tokenizer, input_ids)

    with torch.inference_mode():
        output_ids = model.generate(
            input_ids,
            images=tensor,
            do_sample=True,
            temperature=0.2,
            max_new_tokens=1024,
            use_cache=True,
            stopping_criteria=[stopping_criteria])

    outputs = tokenizer.decode(output_ids[0, input_ids.shape[1]:]).strip()
    print(outputs)

if __name__ == '__main__':
    main()

高级用法

以下是视频推理的代码示例：

import torch
from videollava.constants import IMAGE_TOKEN_INDEX, DEFAULT_IMAGE_TOKEN
from videollava.conversation import conv_templates, SeparatorStyle
from videollava.model.builder import load_pretrained_model
from videollava.utils import disable_torch_init
from videollava.mm_utils import tokenizer_image_token, get_model_name_from_path, KeywordsStoppingCriteria

def main():
    disable_torch_init()
    video = 'videollava/serve/examples/sample_demo_1.mp4'
    inp = 'Why is this video funny?'
    model_path = 'LanguageBind/Video-LLaVA-7B'
    cache_dir = 'cache_dir'
    device = 'cuda'
    load_4bit, load_8bit = True, False
    model_name = get_model_name_from_path(model_path)
    tokenizer, model, processor, _ = load_pretrained_model(model_path, None, model_name, load_8bit, load_4bit, device=device, cache_dir=cache_dir)
    video_processor = processor['video']
    conv_mode = "llava_v1"
    conv = conv_templates[conv_mode].copy()
    roles = conv.roles

    video_tensor = video_processor(video, return_tensors='pt')['pixel_values']
    if type(video_tensor) is list:
        tensor = [video.to(model.device, dtype=torch.float16) for video in video_tensor]
    else:
        tensor = video_tensor.to(model.device, dtype=torch.float16)

    print(f"{roles[1]}: {inp}")
    inp = ' '.join([DEFAULT_IMAGE_TOKEN] * model.get_video_tower().config.num_frames) + '\n' + inp
    conv.append_message(conv.roles[0], inp)
    conv.append_message(conv.roles[1], None)
    prompt = conv.get_prompt()
    input_ids = tokenizer_image_token(prompt, tokenizer, IMAGE_TOKEN_INDEX, return_tensors='pt').unsqueeze(0).cuda()
    stop_str = conv.sep if conv.sep_style != SeparatorStyle.TWO else conv.sep2
    keywords = [stop_str]
    stopping_criteria = KeywordsStoppingCriteria(keywords, tokenizer, input_ids)

    with torch.inference_mode():
        output_ids = model.generate(
            input_ids,
            images=tensor,
            do_sample=True,
            temperature=0.1,
            max_new_tokens=1024,
            use_cache=True,
            stopping_criteria=[stopping_criteria])

    outputs = tokenizer.decode(output_ids[0, input_ids.shape[1]:]).strip()
    print(outputs)

if __name__ == '__main__':
    main()

📚 详细文档

训练与验证

训练和验证说明请参考 TRAIN_AND_VALIDATE.md。

🔧 技术细节

模型亮点

Video-LLaVA在数据集没有图像 - 视频对的情况下，展现出了图像和视频之间卓越的交互能力。通过将统一视觉表示绑定到语言特征空间，使大语言模型能够同时对图像和视频执行视觉推理能力。大量实验证明了模态的互补性，与专门为图像或视频设计的模型相比，具有显著优势。

📄 许可证

本项目的大部分内容遵循Apache 2.0许可证，详情见 LICENSE 文件。
该服务仅供研究预览，仅用于非商业用途，需遵守LLaMA的模型许可证、OpenAI生成数据的使用条款以及ShareGPT的隐私政策。如果您发现任何潜在的违规行为，请联系我们。

📰 最新消息

[2024.01.27] 👀👀👀 我们的 MoE-LLaVA 发布了！一个30亿参数的稀疏模型性能超过了70亿参数的密集模型。
[2024.01.17] 🔥🔥🔥 我们的 LanguageBind 已被ICLR 2024接收！
[2024.01.16] 🔥🔥🔥 我们重新组织了代码并支持LoRA微调，查看 finetune_lora.sh。
[2023.11.30] 🤝 感谢社区的慷慨贡献，OpenXLab的演示现已开放。
[2023.11.23] 我们正在训练一个新的强大模型。
[2023.11.21] 🤝 查看由 @nateraw 创建的 replicate演示，他慷慨地支持了我们的研究！
[2023.11.20] 🤗 Hugging Face演示和 所有代码及数据集 现已可用！欢迎关注 👀 此仓库以获取最新更新。

👍 致谢

LLaVA 我们基于此代码库进行开发，它是一个高效的大语言和视觉助手。
Video-ChatGPT 为评估代码和数据集做出了重要贡献。

🙌 相关项目

LanguageBind 一个开源的五模态基于语言的检索框架。
Chat-UniVi 该框架使模型能够有效利用有限数量的视觉标记。

✏️ 引用

如果您在研究中发现我们的论文和代码有用，请考虑给我们点个星 :star: 并引用 :pencil:。

@article{lin2023video,
  title={Video-LLaVA: Learning United Visual Representation by Alignment Before Projection},
  author={Lin, Bin and Zhu, Bin and Ye, Yang and Ning, Munan and Jin, Peng and Yuan, Li},
  journal={arXiv preprint arXiv:2311.10122},
  year={2023}
}

@article{zhu2023languagebind,
  title={LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment},
  author={Zhu, Bin and Lin, Bin and Ning, Munan and Yan, Yang and Cui, Jiaxi and Wang, HongFa and Pang, Yatian and Jiang, Wenhao and Zhang, Junwu and Li, Zongwei and others},
  journal={arXiv preprint arXiv:2310.01852},
  year={2023}
}