VideoLLaMA2.1-7B-16F开源多模态模型 - 免费实现视频理解与音频分析

首页

Videollama2.1 7B 16F

由 DAMO-NLP-SG 开发

VideoLLaMA 2是一个多模态大语言模型，专注于视频理解，具备时空建模和音频理解能力。

文本生成视频

Transformers

英语开源协议:Apache-2.0 #多模态视频理解 #时空建模强化 #16帧长视频处理

下载量 2,813

发布时间 : 10/14/2024

模型简介

VideoLLaMA 2是一个先进的多模态大语言模型，专门设计用于视频理解任务。它结合了视觉和语言处理能力，能够处理视频中的时空信息，并支持音频理解。该模型在多个视频理解基准测试中表现优异。

模型特点

多模态理解

同时处理视觉和语言信息，实现视频内容的理解和分析

时空建模

能够捕捉视频中的时空关系，理解动作和场景变化

音频理解

支持音频信息的处理，增强对视频内容的全面理解

高性能

在多个视频理解基准测试中取得领先成绩

模型能力

视频问答

视频描述生成

时空关系理解

多模态推理

开放式视频问答

使用案例

视频内容分析

视频问答

回答关于视频内容的各类问题

在MLVU和VideoMME榜单上取得优异成绩

视频描述生成

自动生成视频内容的文字描述

能够准确描述视频中的关键内容和情感

教育

教学视频分析

理解教学视频内容并回答相关问题

帮助学生更好地理解视频教学内容

🚀 VideoLLaMA 2：推进视频大语言模型中的时空建模和音频理解

VideoLLaMA 2 是一款先进的多模态大语言模型，专注于视频领域的时空建模和音频理解，为视频问答、视频字幕生成等任务提供了强大的解决方案。

🚀 快速开始

你可以通过以下 Python 代码示例，使用 VideoLLaMA2 进行推理：

import sys
sys.path.append('./')
from videollama2 import model_init, mm_infer
from videollama2.utils import disable_torch_init


def inference():
    disable_torch_init()

    # 视频推理
    modal = 'video'
    modal_path = 'assets/cat_and_chicken.mp4' 
    instruct = '视频中有哪些动物，它们在做什么，视频给人的感觉如何？'
   
    # 图像推理
    modal = 'image'
    modal_path = 'assets/sora.png'
    instruct = '图中的女人穿着什么，她在做什么，图像给人的感觉如何？'
    
    model_path = 'DAMO-NLP-SG/VideoLLaMA2-7B-16F'
    model, processor, tokenizer = model_init(model_path)
    output = mm_infer(processor[modal](modal_path), instruct, model=model, tokenizer=tokenizer, do_sample=False, modal=modal)

    print(output)

if __name__ == "__main__":
    inference()

✨ 主要特性

多模态处理能力：支持视频和图像的推理，能够处理多种类型的视觉信息。
强大的时空建模：在多选择视频问答和视频字幕生成等任务中表现出色，能够准确理解视频中的时空信息。
广泛的模型选择：提供多种不同规模和配置的模型，满足不同场景的需求。

📚 详细文档

📰 新闻动态

[2024.10.15] 发布 VideoLLaMA2.1-7B-16F-Base 和 VideoLLaMA2.1-7B-16F 的检查点。
[2024.08.14] 发布 VideoLLaMA2-72B-Base 和 VideoLLaMA2-72B 的检查点。
[2024.07.30] 发布 VideoLLaMA2-8x7B-Base 和 VideoLLaMA2-8x7B 的检查点。
[2024.06.25] 截至 6 月 25 日，VideoLLaMA2-7B-16F 在 MLVU 排行榜上的约 7B 规模视频大语言模型中排名第一。
[2024.06.18] 截至 6 月 18 日，VideoLLaMA2-7B-16F 在 VideoMME 排行榜上的约 7B 规模视频大语言模型中排名第一。
[2024.06.17] 更新技术报告，包含最新结果和缺失的参考文献。如果您有与 VideoLLaMA 2 密切相关但未在论文中提及的工作，请随时告知我们。
[2024.06.14] 在线演示已上线。
[2024.06.03] 发布 VideoLLaMA 2 的训练、评估和服务代码。

🌎 模型库

模型名称	类型	视觉编码器	语言解码器	训练帧数
VideoLLaMA2-7B-Base	基础版	clip-vit-large-patch14-336	Mistral-7B-Instruct-v0.2	8
VideoLLaMA2-7B	对话版	clip-vit-large-patch14-336	Mistral-7B-Instruct-v0.2	8
VideoLLaMA2-7B-16F-Base	基础版	clip-vit-large-patch14-336	Mistral-7B-Instruct-v0.2	16
VideoLLaMA2-7B-16F	对话版	clip-vit-large-patch14-336	Mistral-7B-Instruct-v0.2	16
VideoLLaMA2-8x7B-Base	基础版	clip-vit-large-patch14-336	Mixtral-8x7B-Instruct-v0.1	8
VideoLLaMA2-8x7B	对话版	clip-vit-large-patch14-336	Mixtral-8x7B-Instruct-v0.1	8
VideoLLaMA2-72B-Base	基础版	clip-vit-large-patch14-336	Qwen2-72B-Instruct	8
VideoLLaMA2-72B	对话版	clip-vit-large-patch14-336	Qwen2-72B-Instruct	8
VideoLLaMA2.1-7B-16F-Base	基础版	siglip-so400m-patch14-384	Qwen2-7B-Instruct	16
VideoLLaMA2.1-7B-16F (本检查点)	对话版	siglip-so400m-patch14-384	Qwen2-7B-Instruct	16

🚀 主要结果

多选择视频问答与视频字幕生成

多选择视频问答与视频字幕生成结果

开放式视频问答

开放式视频问答结果

📄 许可证

本项目采用 Apache-2.0 许可证。

引用

如果您发现 VideoLLaMA 对您的研究和应用有帮助，请使用以下 BibTeX 进行引用：

@article{damonlpsg2024videollama2,
  title={VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs},
  author={Cheng, Zesen and Leng, Sicong and Zhang, Hang and Xin, Yifei and Li, Xin and Chen, Guanzheng and Zhu, Yongxin and Zhang, Wenqi and Luo, Ziyang and Zhao, Deli and Bing, Lidong},
  journal={arXiv preprint arXiv:2406.07476},
  year={2024},
  url = {https://arxiv.org/abs/2406.07476}
}

@article{damonlpsg2023videollama,
  title = {Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding},
  author = {Zhang, Hang and Li, Xin and Bing, Lidong},
  journal = {arXiv preprint arXiv:2306.02858},
  year = {2023},
  url = {https://arxiv.org/abs/2306.02858}
}