ai-light-dance_stepmania_ft_wav2vec2-large-xlsr-53-v3开源模型

Ai Light Dance Stepmania Ft Wav2vec2 Large Xlsr 53 V3

由 gary109 开发

基于wav2vec2-large-xlsr-53的自动语音识别模型，在GARY109/AI_LIGHT_DANCE数据集上微调

下载量 191

发布时间 : 6/25/2022

模型简介

该模型是针对Stepmania游戏音频优化的自动语音识别模型，主要用于识别游戏中的音频指令或节奏点。

高精度语音识别

基于wav2vec2-large-xlsr-53架构，提供较高的语音识别准确率

游戏音频优化

专门针对Stepmania游戏音频进行微调，适合游戏场景使用

多轮训练优化

经过10轮训练，模型性能逐步提升并趋于稳定

自动语音识别

游戏音频处理

节奏点检测

游戏应用

Stepmania游戏指令识别

识别游戏中的音频指令，辅助游戏操作

词错误率0.6928

游戏节奏分析

分析游戏音频中的节奏点，用于游戏辅助工具开发

训练损失	轮数	步数	验证损失	字错率（Wer）
0.9189	1.0	188	1.0770	0.7002
0.9172	2.0	376	1.0780	0.6955
0.9177	3.0	564	1.0824	0.6916
0.9184	4.0	752	1.0734	0.6928
0.9072	5.0	940	1.0841	0.6897
0.9089	6.0	1128	1.0788	0.6870
0.9174	7.0	1316	1.0761	0.6856
0.9072	8.0	1504	1.0776	0.6850
0.9079	9.0	1692	1.0795	0.6852
0.9016	10.0	1880	1.0817	0.6850