ai-light-dance_stepmania_ft_wav2vec2开源自动语音识别模型

Ai Light Dance Stepmania Ft Wav2vec2 Large Xlsr 53

由 gary109 开发

该模型是基于facebook/wav2vec2-large-xlsr-53在GARY109/AI_LIGHT_DANCE - ONSET-STEPMANIA2数据集上微调的自动语音识别模型

下载量 40

发布时间 : 6/22/2022

模型简介

用于语音识别任务的微调模型，基于wav2vec2-large-xlsr-53架构，在特定数据集上进行了优化

基于XLSR架构

采用wav2vec2-large-xlsr-53架构，具有强大的语音特征提取能力

特定领域微调

在GARY109/AI_LIGHT_DANCE - ONSET-STEPMANIA2数据集上进行了优化

高效训练

使用混合精度训练和梯度累积等技术提高训练效率

语音识别

音频特征提取

自动转录

音乐游戏

节奏游戏音轨分析

用于分析节奏游戏中的音频节拍和模式

语音处理

语音转文本

将语音内容转换为文本格式

训练损失	轮数	步数	验证损失	字错率（Wer）
2.5631	1.0	150	2.4894	1.0
1.9443	2.0	300	1.8861	1.0
1.7618	3.0	450	1.6731	1.0
1.2354	4.0	600	1.2471	0.9875
1.2333	5.0	750	1.2253	0.9875
1.2037	6.0	900	1.2168	0.9875
1.2184	7.0	1050	1.2120	0.9875
1.1932	8.0	1200	1.2080	0.9875
1.179	9.0	1350	1.2039	0.9875
1.1722	10.0	1500	1.2034	0.9875