T

Timezero ActivityNet 7B

由 wwwyyy 开发
TimeZero是一种基于推理引导的大规模视觉语言模型(LVLM),专为时间视频定位(TVG)任务设计,通过强化学习方法实现动态视频-语言关系分析。
下载量 142
发布时间 : 3/18/2025
模型介绍
内容详情
替代品

模型简介

TimeZero擅长识别视频中与自然语言查询对应的时间片段,完全通过强化学习方法实现,使模型能在推理过程中动态分析视频-语言关系。

模型特点

强化学习训练
全程采用强化学习策略,显著提升时间边界预测精度
实时推理能力
在推理过程中展现思维链推理能力,为片段预测提供逻辑依据
顶尖性能表现
在Charades-STA基准测试中刷新纪录

模型能力

视频时间片段定位
自然语言查询理解
视频-语言关系分析
动态推理能力

使用案例

视频内容分析
视频片段检索
根据自然语言描述定位视频中的特定片段
在Charades-STA基准测试中达到83.3%的R1@0.3准确率
视频内容理解
分析视频内容与文本查询的对应关系
在ActivityNet数据集上实现68.6%的R1@0.3准确率