Apollo-LMMs-Apollo-7B-t32开源视频理解模型 - 处理长时视频，支持问答对话

首页

Apollo LMMs Apollo 7B T32

由 GoodiesHere 开发

Apollo是一系列专注于视频理解的大型多模态模型，擅长处理长达一小时的视频内容，支持复杂视频问答和多轮对话。

视频生成文本

Transformers

英语开源协议:Apache-2.0 #长视频理解 #时序推理 #多模态对话

下载量 67

发布时间 : 12/18/2024

模型简介

Apollo模型致力于推动视频理解领域的技术发展，支持长视频内容理解、时序推理、复杂视频问答和基于视频内容的多轮对话。

模型特点

高效长视频处理

能够处理长达一小时的视频内容，通过策略性设计平衡速度与准确性。

参数效率高

仅需30亿参数即可超越多数70亿参数的竞品，甚至能与300亿规模的模型媲美。

多模态理解

结合视觉和语言理解能力，支持复杂的视频内容分析和问答。

高帧率处理

每帧32个标记的高效处理能力。

模型能力

长视频内容理解

时序推理

复杂视频问答

多轮对话

视频内容描述生成

使用案例

视频内容分析

视频内容摘要

自动生成长视频的内容摘要

能够准确捕捉视频中的关键内容和事件

视频问答系统

回答关于视频内容的复杂问题

能够理解视频中的时序关系和细节

人机交互

基于视频的多轮对话

与用户就视频内容进行自然语言交互

支持上下文相关的对话流

🚀 Apollo：大型多模态模型中的视频理解探索

Apollo是一系列大型多模态模型（LMMs），推动了视频理解领域的技术前沿。它支持以下任务：

长视频理解
时间推理
复杂视频问答
基于视频内容的多轮对话

Apollo模型在处理长达数小时的视频方面表现出色，通过合理的设计决策实现了速度和准确性的平衡。我们的模型仅用30亿参数就超越了大多数70亿参数的竞争对手，甚至可与300亿规模的模型相媲美。

关键亮点：

70亿参数模型变体
每帧32个标记

🚀 快速开始

📦 安装指南

pip install -e .
pip install flash-attn --no-build-isolation

💻 使用示例

基础用法

import torch
from transformers import AutoModelForCausalLM
from apollo.mm_utils import (
    KeywordsStoppingCriteria,
    tokenizer_mm_token,
    ApolloMMLoader
)
from apollo.conversations import conv_templates, SeparatorStyle
from huggingface_hub import snapshot_download

model_url = "Apollo-LMMs/Apollo-3B-t32"
model_path = snapshot_download(model_url, repo_type="model")

device = "cuda" if torch.cuda.is_available() else "cpu"
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    trust_remote_code=True,
    low_cpu_mem_usage=True
).to(device=device, dtype=torch.bfloat16)

tokenizer = model.tokenizer
vision_processors = model.vision_tower.vision_processor
config = model.config
num_repeat_token = config.mm_connector_cfg['num_output_tokens']
mm_processor = ApolloMMLoader(
    vision_processors,
    config.clip_duration,
    frames_per_clip=4,
    clip_sampling_ratio=0.65,
    model_max_length=config.model_max_length,
    device=device,
    num_repeat_token=num_repeat_token
)

video_path = "path/to/video.mp4"
question = "Describe this video in detail"
mm_data, replace_string = mm_processor.load_video(video_path)

conv = conv_templates["qwen_2"].copy()
conv.append_message(conv.roles[0], replace_string + "\n\n" + question)
conv.append_message(conv.roles[1], None)

prompt = conv.get_prompt()
input_ids = tokenizer_mm_token(prompt, tokenizer, return_tensors="pt").unsqueeze(0).to(device)

stop_str = conv.sep if conv.sep_style != SeparatorStyle.TWO else conv.sep2
stopping_criteria = KeywordsStoppingCriteria([stop_str], tokenizer, input_ids)

with torch.inference_mode():
    output_ids = model.generate(
        input_ids,
        vision_input=[mm_data],
        data_types=['video'],
        do_sample=True,
        temperature=0.4,
        max_new_tokens=256,
        top_p=0.7,
        use_cache=True,
        num_beams=1,
        stopping_criteria=[stopping_criteria]
    )

pred = tokenizer.batch_decode(output_ids, skip_special_tokens=True)[0].strip()
print(pred)

📚 详细文档

如果您觉得这个项目有用，请考虑引用：

@article{zohar2024apollo,
    title={Apollo: An Exploration of Video Understanding in Large Multimodal Models},
    author={Zohar, Orr and Wang, Xiaohan and Dubois, Yann and Mehta, Nikhil and Xiao, Tong and Hansen-Estruch, Philippe and Yu, Licheng and Wang, Xiaofang and Juefei-Xu, Felix and Zhang, Ning and Yeung-Levy, Serena and Xia, Xide},
    journal={arXiv preprint arXiv:2412.10360},
    year={2024}
}

更多详情，请访问项目网站或查看论文。