ai-light-dance_stepmania_ft_wav2vec2-large-xlsr-53-v7开源模型

Ai Light Dance Stepmania Ft Wav2vec2 Large Xlsr 53 V7

由 gary109 开发

基于wav2vec2-large-xlsr-53的自动语音识别模型，专为StepMania游戏音频优化，在GARY109/AI_LIGHT_DANCE数据集上微调

下载量 162

发布时间 : 6/30/2022

模型简介

该模型是针对StepMania游戏音频优化的自动语音识别(ASR)模型，通过微调wav2vec2-large-xlsr-53架构实现，在特定游戏音频数据集上表现出色

游戏音频优化

专门针对StepMania游戏音频数据进行优化，识别效果更佳

微调版本

基于wav2vec2-large-xlsr-53模型微调，保留原模型强大特征提取能力

低词错误率

在评估集上达到0.6512的词错误率(WER)，表现优异

游戏音频识别

语音转文本

节奏游戏音频分析

游戏开发

StepMania游戏音频分析

用于分析StepMania游戏中的音频节奏和内容

词错误率0.6512

语音识别

特定领域语音识别

适用于游戏音频等特定领域的语音识别任务

本模型是 gary109/ai-light-dance_stepmania_ft_wav2vec2-large-xlsr-53-v6 在 GARY109/AI_LIGHT_DANCE - ONSET - STEPMANIA2 数据集上的微调版本。它在评估集上取得了以下结果：

本模型可用于自动语音识别任务，基于微调后的参数能更精准地处理相关语音数据。

训练期间使用了以下超参数：

训练损失	轮数	步数	验证损失	字错率（Wer）
0.9303	1.0	12031	1.1160	0.6712
0.8181	2.0	24062	1.0601	0.6608
0.7861	3.0	36093	1.0478	0.6520
0.767	4.0	48124	1.0617	0.6526
0.797	5.0	60155	1.0424	0.6512
0.834	6.0	72186	1.0519	0.6542
0.7915	7.0	84217	1.0508	0.6494
0.8106	8.0	96248	1.0753	0.6449
0.7512	9.0	108279	1.1223	0.6592
0.777	10.0	120310	1.1201	0.6535
0.7631	11.0	132341	1.0780	0.6512
0.7465	12.0	144372	1.0822	0.6499
0.826	13.0	156403	1.0706	0.6445
0.7552	14.0	168434	1.0862	0.6449
0.8279	15.0	180465	1.1162	0.6461
0.7769	16.0	192496	1.1023	0.6420
0.7918	17.0	204527	1.1085	0.6456
0.6941	18.0	216558	1.1139	0.6417
0.7379	19.0	228589	1.1126	0.6410
0.7467	20.0	240620	1.1102	0.6369
0.8045	21.0	252651	1.1191	0.6376
0.7059	22.0	264682	1.1285	0.6381
0.7008	23.0	276713	1.1328	0.6377
0.7816	24.0	288744	1.1326	0.6366
0.7426	25.0	300775	1.1420	0.6362
0.7226	26.0	312806	1.1326	0.6350
0.665	27.0	324837	1.1419	0.6346
0.7184	28.0	336868	1.1480	0.6346
0.77	29.0	348899	1.1476	0.6343
0.727	30.0	360930	1.1494	0.6348