TinyLLaVA-Video-R1开源视频推理模型 - 强化学习提能力，推理涌现新特性

首页

Tinyllava Video R1

由 Zhang199 开发

TinyLLaVA-Video-R1是基于可溯源训练模型TinyLLaVA-Video的小规模视频推理模型，通过强化学习显著提升了推理与思维能力，并展现出'顿悟时刻'的涌现特性。

视频生成文本

Transformers

开源协议:Apache-2.0 #视频问答推理 #小规模高效 #顿悟涌现

下载量 123

发布时间 : 4/13/2025

模型简介

该模型专注于视频文本生成任务，能够理解和分析视频内容，生成相关的文本描述或回答问题。

模型特点

强化学习优化

通过对通用视频问答数据集进行强化学习，显著提升了模型的推理与思维能力。

涌现特性

模型展现出'顿悟时刻'的涌现特性，能够更好地理解和分析复杂视频内容。

小规模高效

作为小规模模型，TinyLLaVA-Video-R1在保持高效的同时提供优秀的视频理解能力。

模型能力

视频内容理解

视频问答

视频文本生成

使用案例

视频分析

视频问答系统

用于构建能够回答关于视频内容问题的智能系统。

在多个基准测试中表现优异，如Video-MME、MVBench等。

视频内容摘要

自动生成视频内容的文本摘要。

教育

教育视频理解

帮助学生理解教育视频内容，回答相关问题。

模型 (HF 路径)	Video-MME(wo sub)	MVBench	MLVU	MMVU(mc)
Zhang199/TinyLLaVA-Video-R1	46.6	49.5	52.4	46.9

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Tinyllava Video R1

模型简介

模型特点

模型能力

使用案例

🚀 TinyLLaVA-Video-R1

✨ 主要特性

📚 详细文档

结果

📄 许可证