T

Timezero Charades 7B

由 wwwyyy 开发
TimeZero是一种基于推理引导的大型视觉语言模型(LVLM),专为时间视频定位(TVG)任务设计,通过强化学习方法实现视频中与自然语言查询相对应的时序片段识别。
下载量 183
发布时间 : 3/18/2025
模型介绍
内容详情
替代品

模型简介

TimeZero是一种基于推理引导的大型视觉语言模型(LVLM),擅长识别视频中与自然语言查询相对应的时序片段,完全通过强化学习方法实现,使模型能够在推理过程中对视频-语言关系进行推理。

模型特点

强化学习训练
完全采用强化学习训练,提升时序边界预测精度
推理时逻辑推演
在推理过程中展现涌现式推理能力,生成思维链来佐证片段预测
SOTA性能
在Charades-STA基准测试中创下新纪录

模型能力

时间视频定位
视频-语言关系推理
时序片段识别

使用案例

视频分析
视频片段检索
根据自然语言查询定位视频中的特定片段
在Charades-STA基准测试中达到83.3%的R1@0.3准确率