ai-light-dance_stepmania_ft_wav2vec2-large-xlsr-53-v2开源模型

Ai Light Dance Stepmania Ft Wav2vec2 Large Xlsr 53 V2

由 gary109 开发

该模型是基于wav2vec2-large-xlsr-53在GARY109/AI_LIGHT_DANCE数据集上微调的自动语音识别模型

下载量 166

发布时间 : 6/24/2022

模型简介

这是一个用于自动语音识别(ASR)的模型，特别针对音乐节奏游戏场景优化，能够将音频转换为文本

音乐节奏游戏优化

针对音乐节奏游戏场景进行专门微调，可能更适合处理游戏中的音频特征

基于wav2vec2架构

使用强大的wav2vec2-large-xlsr-53作为基础模型，具有优秀的语音识别能力

语音转文本

音乐节奏识别

游戏开发

节奏游戏语音控制

用于音乐节奏游戏中实现语音控制功能

音乐分析

音乐节拍识别

分析音乐节拍和节奏模式

训练损失	轮数	步数	验证损失	字错率（Wer）
0.945	1.0	150	1.0767	0.7282
0.9445	2.0	300	1.0773	0.7165
0.9392	3.0	450	1.0813	0.7141
0.933	4.0	600	1.0858	0.7032
0.921	5.0	750	1.0753	0.7017
0.9241	6.0	900	1.0787	0.6976
0.9282	7.0	1050	1.0825	0.6959
0.9184	8.0	1200	1.0760	0.6930
0.915	9.0	1350	1.0773	0.6906
0.9094	10.0	1500	1.0786	0.6900