pipeline_tag: 视频文本转文本
library_name: transformers
TimeZero:基于推理引导LVLM的时间视频定位模型
更新日志
- 2025-03-17: TimeZero首次发布!代码与评估脚本现已开放
- 2025-03-17: TimeZero在Charades-STA基准测试中达到SOTA性能!
概述
TimeZero是一种基于推理引导的大规模视觉语言模型(LVLM),专为时间视频定位(TVG)任务设计。该模型擅长识别视频中与自然语言查询对应的时间片段,完全通过强化学习方法实现,使模型能在推理过程中动态分析视频-语言关系。
核心特性:
- 强化学习训练:全程采用强化学习策略,显著提升时间边界预测精度
- 实时推理能力:在推理过程中展现思维链推理能力,为片段预测提供逻辑依据
- 顶尖性能表现:在Charades-STA基准测试中刷新纪录
本说明文档涵盖模型配置、训练流程及评估指南。
示例演示:

训练可视化:

环境配置
conda create -n timezero python=3.11
conda env create -f environment.yml
conda activate timezero
训练流程
TimeZero训练包含以下步骤:
-
数据预处理:
下载数据集 Charades-STA, ActivityNet
训练前需预处理视频数据:
bash preprocess_video.sh
需指定Charades-STA数据集路径(视频文件、标注文件等)
-
GRPO训练:
cd scripts
bash run_grpo_video.sh
run_grpo_video.sh
配置示例:
#!/bin/bash
export DEBUG_MODE="false"
export LOG_PATH="./debug_log.txt"
torchrun --nproc_per_node="4" \
--nnodes="1" \
--node_rank="0" \
--master_addr="127.0.0.1" \
--master_port="12361" \
src/open_r1/grpo_video.py \
--deepspeed scripts/zero3_offload.json \
--output_dir $OUTDIR \
--model_name_or_path mllm/Qwen2.5-VL-7B-Instruct \
--preprocessed_data_path ./Charades_preprocessed_data_maxpix_3584 \
--train_data_path ./Charades/charades_annotation/train.json \
--eval_data_path ./Charades/charades_annotation/val.json \
--video_folder ./Charades/Charades_v1 \
--dataset_name xxx \
--max_prompt_length 8192 \
--max_completion_length 1024 \
--num_generations 8 \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 2 \
--logging_steps 1 \
--bf16 \
--torch_dtype bfloat16 \
--data_seed 42 \
--gradient_checkpointing true \
--attn_implementation flash_attention_2 \
--num_train_epochs 2 \
--run_name $WANDB_NAME \
--report_to wandb \
--save_steps 50 \
--save_only_model true
模型评估
训练完成后执行评估:
bash scripts/evaluate.sh
evaluate.sh
配置示例:
python evaluate.py --model_base <训练模型路径> --dataset <charades或activitynet>
需实现评估脚本(evaluate.py
)以加载模型、处理测试数据并计算指标(R1@0.3, R1@0.5, R1@0.7等)
性能表现
TimeZero显著超越现有最优方法:
方法 |
类型 |
R1@0.3 |
R1@0.5 |
R1@0.7 |
EaTR (VLP最优) |
VLP |
- |
68.4 |
44.9 |
TimeSuite (LVLM最优) |
SFT |
79.4 |
67.1 |
43.0 |
TimeZero (本工作) |
RL |
83.3↑ |
72.5↑ |
47.9↑ |
TimeZero突破LVLM性能极限:
方法 |
类型 |
R1@0.3 |
R1@0.5 |
R1@0.7 |
EaTR (VLP最优) |
VLP |
- |
58.18 |
37.64 |
TRACE (LVLM最优) |
SFT |
54.0 |
37.7 |
24.0 |
TimeZero (本工作) |
RL |
68.6↑ |
47.3↑ |
26.9↑ |
致谢
特别感谢以下项目的贡献者:
引用文献
@article{wang2025timezero,
title={TimeZero:基于推理引导LVLM的时间视频定位},
author={王烨、徐博深、岳子皓、肖子涵、王梓恒、张亮、杨定一、王文轩、金琴},
journal={arxiv},
year={2025}
}