ai-light-dance_stepmania_ft_wav2vec2-large-xlsr-53-v6开源模型

Ai Light Dance Stepmania Ft Wav2vec2 Large Xlsr 53 V6

由 gary109 开发

该模型是基于wav2vec2-large-xlsr-53在GARY109/AI_LIGHT_DANCE - ONSET-STEPMANIA2数据集上微调的自动语音识别模型。

下载量 160

发布时间 : 6/28/2022

模型简介

这是一个用于自动语音识别(ASR)的模型，专门针对Stepmania游戏中的音频数据进行优化。

基于wav2vec2架构

使用wav2vec2-large-xlsr-53作为基础模型，具有良好的语音识别能力

针对游戏音频优化

专门在Stepmania游戏音频数据集上进行微调，适合游戏场景的语音识别

多轮次训练

经过10轮训练，验证损失稳定在1.0左右，词错误率约0.65

语音识别

音频转录

游戏音频处理

游戏

Stepmania游戏语音识别

识别Stepmania游戏中的语音指令

词错误率约0.65

语音转录

游戏音频转录

将游戏中的语音内容转录为文字

训练损失	轮数	步数	验证损失	词错误率（Wer）
0.8572	1.0	376	1.0508	0.6601
0.8671	2.0	752	1.0755	0.6581
0.8578	3.0	1128	1.0152	0.6787
0.8552	4.0	1504	1.0537	0.6557
0.8354	5.0	1880	1.0386	0.6606
0.8543	6.0	2256	1.0063	0.6580
0.8556	7.0	2632	1.0487	0.6499
0.8356	8.0	3008	1.0407	0.6549
0.8227	9.0	3384	1.0382	0.6506
0.8148	10.0	3760	1.0440	0.6500