VideoChat-Flash-Qwen2_5-7B-1M_res224开源模型 - 支持长视频理解多模态应用

首页

Videochat Flash Qwen2 5 7B 1M Res224

由 OpenGVLab 开发

VideoChat-Flash是基于UMT-L和Qwen2.5-7B-1M构建的多模态模型，支持长视频理解，上下文窗口扩展至1M。

视频生成文本

Transformers

英语开源协议:Apache-2.0 #超长视频理解 #低标记多模态 #1M上下文窗口

下载量 64

发布时间 : 2/19/2025

模型简介

该模型专注于视频与文本的多模态交互，能够处理长达约50,000帧的视频输入，适用于视频理解和分析任务。

模型特点

高效长视频处理

通过Yarn技术扩展上下文窗口至1M，支持处理长达约50,000帧的视频输入。

低标记消耗

仅使用每帧16个标记，实现高效的视频内容理解。

多模态能力

结合视觉和语言理解能力，实现视频与文本的交互。

模型能力

视频内容理解

多模态交互

长视频处理

文本生成

使用案例

视频分析

视频问答

基于视频内容回答相关问题

在MLVU数据集上达到74.1%准确率

视频内容理解

理解并描述长视频内容

在LongVideoBench上达到66.5%准确率

多模态测试

感知测试

多模态感知能力评估

在Perception Test上达到75.4%准确率

🚀 🦜VideoChat-Flash-Qwen2_5-7B-1M_res224⚡

VideoChat-Flash-Qwen2_5-7B_InternVideo2-1B基于UMT - L (300M)和Qwen2.5 - 7B - 1M构建，每帧仅使用16个token。通过使用Yarn将上下文窗口扩展到1M（Qwen2.5 - 7B - 1M的原生上下文窗口为128k），我们的模型支持输入序列最多约50,000帧。

⚠️ 重要提示

由于训练语料主要为英文，模型仅具备基本的中文理解能力，为确保最佳性能，建议使用英文进行交互。

[📰 博客] [📂 GitHub] [📜 技术报告] [🗨️ 聊天演示]

📈 性能表现

模型	MVBench	LongVideoBench	VideoMME(无字幕)	最大输入帧数
VideoChat-Flash-Qwen2_5-2B@448	70.0	58.3	57.0	10000
VideoChat-Flash-Qwen2-7B@224	73.2	64.2	64.0	10000
VideoChat-Flash-Qwen2_5-7B-1M@224	73.4	66.5	63.5	50000
VideoChat-Flash-Qwen2_5-7B_InternVideo2-1B@224	74.3	64.5	65.1	10000
VideoChat-Flash-Qwen2-7B@448	74.0	64.7	65.3	10000

📦 安装指南

首先，你需要安装flash attention2和其他一些模块。我们在下面提供一个简单的安装示例：

pip install transformers==4.40.1
pip install av
pip install imageio
pip install decord
pip install opencv-python
# 可选
pip install flash-attn --no-build-isolation

💻 使用示例

基础用法

from transformers import AutoModel, AutoTokenizer
import torch

# 模型设置
model_path = 'OpenGVLab/VideoChat-Flash-Qwen2_5-7B-1M_res224'

tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModel.from_pretrained(model_path, trust_remote_code=True).to(torch.bfloat16).cuda()
image_processor = model.get_vision_tower().image_processor

mm_llm_compress = False # 是否使用全局压缩
if mm_llm_compress:
    model.config.mm_llm_compress = True
    model.config.llm_compress_type = "uniform0_attention"
    model.config.llm_compress_layer_list = [4, 18]
    model.config.llm_image_token_ratio_list = [1, 0.75, 0.25]
else:
    model.config.mm_llm_compress = False

# 评估设置
max_num_frames = 512
generation_config = dict(
    do_sample=False,
    temperature=0.0,
    max_new_tokens=1024,
    top_p=0.1,
    num_beams=1
)

video_path = "your_video.mp4"

# 单轮对话
question1 = "Describe this video in detail."
output1, chat_history = model.chat(video_path=video_path, tokenizer=tokenizer, user_prompt=question1, return_history=True, max_num_frames=max_num_frames, generation_config=generation_config)

print(output1)

# 多轮对话
question2 = "How many people appear in the video?"
output2, chat_history = model.chat(video_path=video_path, tokenizer=tokenizer, user_prompt=question2, chat_history=chat_history, return_history=True, max_num_frames=max_num_frames, generation_config=generation_config)

print(output2)

✏️ 引用

@article{li2024videochatflash,
  title={VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling},
  author={Li, Xinhao and Wang, Yi and Yu, Jiashuo and Zeng, Xiangyu and Zhu, Yuhan and Huang, Haian and Gao, Jianfei and Li, Kunchang and He, Yinan and Wang, Chenting and others},
  journal={arXiv preprint arXiv:2501.00574},
  year={2024}
}