开源TEMPURA-Qwen2.5-VL-3B-s1模型 - 提升视频事件理解与时间分割能力

首页

TEMPURA Qwen2.5 VL 3B S1

由 andaba 开发

TEMPURA是一个结合因果推理与细粒度时间分割的视频时序理解框架，通过两阶段训练提升视频事件理解能力

视频生成文本

Transformers

#视频时序推理 #因果事件预测 #密集事件分割

下载量 16

发布时间 : 5/4/2025

模型简介

该模型通过掩码事件预测和视频分割技术，实现视频事件的时序理解与因果推理，支持视频到文本的生成任务

模型特点

两阶段训练范式

第一阶段通过掩码事件预测推理重构缺失事件，第二阶段学习视频分割与密集描述技术

时序理解能力

将视频解构为无重叠事件并生成时间戳对齐的详细描述

大规模训练数据

在VER数据集（含100万训练实例、50万视频）上训练

模型能力

视频时序理解

事件因果推理

视频到文本生成

时间戳对齐描述生成

使用案例

视频分析

视频事件推理

分析视频中事件的因果关系和时间顺序

性能超越现有强基线模型

时序定位

准确定位视频中特定事件发生的时间点

在基准测试中表现优异

属性	详情
基础模型	Qwen/Qwen2.5-VL-3B-Instruct
数据集	andaba/TEMPURA-VER
库名称	transformers
标签	text-generation-inference
任务类型	video-text-to-text

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

TEMPURA Qwen2.5 VL 3B S1

模型简介

模型特点

模型能力

使用案例

🚀 TEMPURA：用于动作推理的时间事件掩码预测与理解

✨ 主要特性

📚 详细文档

基础模型

模型权重

引用TEMPURA