Videomae Base Finetuned

由 LouisDT 开发

基于VideoMAE基础模型在未知数据集上微调的视频理解模型，在评估集上达到86.41%的准确率

视频处理

Transformers

#视频理解 #高准确率 #行为识别

下载量 15

发布时间 : 2/8/2023

模型介绍

内容详情

替代品

模型简介

该模型是VideoMAE基础架构的微调版本，主要用于视频内容理解任务，具体应用场景需进一步补充

模型特点

高效视频表示学习

采用掩码自编码器架构，能有效学习视频的时空特征表示

微调性能优异

在评估集上达到86.41%的准确率，表现良好

轻量级训练

使用8的批次大小即可进行有效训练

模型能力

视频特征提取

视频内容分类

时空模式识别

使用案例

视频内容分析

动作识别

识别视频中的人类动作或行为

准确率86.41%（基于评估集）

场景分类

对视频场景内容进行分类

训练损失	训练轮次	训练步数	验证损失	准确率
0.7163	0.21	28	0.6078	0.8098
0.7383	1.21	56	0.6975	0.4728
0.6853	2.21	84	0.6637	0.6957
0.7065	3.21	112	0.5590	0.8641
0.6673	4.17	135	0.5766	0.8587

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

AIbase是一个专注于MCP服务的平台，为AI开发者提供高质量的模型上下文协议服务，助力AI应用开发。

简体中文

热门模型

Llama 3 Typhoon V1.5x 8b Instruct

Cadet Tiny

Roberta Base Chinese Extractive Qa

热门模型分类

热门标签

Videomae Base Finetuned

模型简介

模型特点

模型能力

使用案例

videomae-base微调版

模型描述

使用场景与限制

训练与评估数据

训练流程

训练超参数

训练结果

框架版本