VideoMAE开源视频动作识别模型 - 基于Kinetics微调，准确率超92%！

首页

Videomae Base Finetuned Kinetics 0408 Final 5sec Org Ab7 Val As123

由 d2o2ji 开发

基于VideoMAE架构的视频动作识别模型，在Kinetics数据集上微调，准确率达92.25%

视频处理

Transformers

#视频动作识别 #高精度时序分析 #Kinetics微调

下载量 31

发布时间 : 4/8/2025

模型简介

该模型是基于VideoMAE架构的视频理解模型，专门针对动作识别任务进行了优化。通过自监督预训练和微调，能够高效识别视频中的动作类别。

模型特点

高准确率

在评估集上达到92.25%的准确率，表现优秀

高效微调

基于预训练的VideoMAE模型进行微调，训练效率高

5秒视频处理

专门优化用于处理5秒时长的视频片段

模型能力

视频动作识别

视频内容理解

时序特征提取

使用案例

视频分析

动作识别

识别视频中的人类动作类别

92.25%的准确率

视频内容分类

对短视频内容进行分类标注

智能监控

异常行为检测

检测监控视频中的异常动作

🚀 videomae-base-finetuned-kinetics-0408_final_5sec_org_ab7_val_as123

该模型是基于MCG - NJU/videomae - base - finetuned - kinetics在未知数据集上微调得到的版本。它在评估集上取得了以下结果：

损失值：0.3219
准确率：0.9225

🚀 快速开始

此部分文档暂未提供快速开始的相关内容。

✨ 主要特性

此模型是微调版本，在评估集上有较好的表现，损失值较低且准确率较高。

📚 详细文档

模型描述

更多信息待补充。

预期用途与限制

更多信息待补充。

训练和评估数据

更多信息待补充。

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率：5e - 05
训练批次大小：8
评估批次大小：8
随机种子：42
优化器：使用adamw_torch，其中betas=(0.9, 0.999)，epsilon = 1e - 08，无额外优化器参数
学习率调度器类型：线性
学习率调度器热身比例：0.05
训练步数：65800

训练结果

训练损失	轮数	步数	验证损失	准确率
0.537	0.0100	659	0.3567	0.8740
0.0105	1.0100	1318	0.2819	0.9139
0.0039	2.0100	1977	0.3886	0.8858
0.0023	3.0100	2636	0.7164	0.8169
0.0222	4.0100	3295	0.2866	0.9264
0.0076	5.0100	3954	0.4126	0.9006
1.008	6.0100	4613	0.3480	0.9006
0.2086	7.0100	5272	0.2673	0.9311
0.4466	8.0100	5931	0.3282	0.9264
0.0067	9.0100	6590	0.3301	0.9116
1.3353	10.0100	7249	0.5289	0.8654
0.0003	11.0100	7908	0.6538	0.8732
0.0003	12.0100	8567	0.3669	0.9241
0.0184	13.0100	9226	0.3609	0.9171
0.0002	14.0100	9885	0.5037	0.8975
0.0001	15.0100	10544	0.4052	0.9202
0.0077	16.0100	11203	0.5142	0.9014
0.0001	17.0100	11862	0.3801	0.9241
0.0092	18.0100	12521	0.5826	0.9030
0.0012	19.0100	13180	0.4868	0.9155
0.0043	20.0100	13839	0.4497	0.9186
0.0001	21.0100	14498	0.7081	0.8858
0.0	22.0100	15157	0.8394	0.8725