ai-light-dance_singing2_ft开源自动语音识别模型

Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53 5gram V3

由 gary109 开发

基于wav2vec2-large-xlsr-53模型微调的自动语音识别模型，专注于歌唱语音识别

下载量 97

发布时间 : 6/28/2022

模型简介

该模型是在GARY109/AI_LIGHT_DANCE - ONSET-SINGING2数据集上微调的版本，主要用于歌唱语音识别任务。

歌唱语音识别优化

专门针对歌唱语音进行了微调，可能比通用语音识别模型在歌唱场景下表现更好

5-gram语言模型增强

集成了5-gram语言模型，可能提高了识别准确率

低词错误率

在评估集上取得了0.2256的词错误率(WER)

歌唱语音识别

自动语音转文本

音乐技术

歌唱录音转歌词

将歌唱录音自动转换为文本歌词

词错误率约22.56%

音乐教育辅助

帮助音乐学习者分析歌唱发音准确性

训练损失	轮数	步数	验证损失	字错率（Wer）
0.2546	1.0	280	0.6004	0.2796
0.2325	2.0	560	0.6337	0.2729
0.2185	3.0	840	0.5546	0.2299
0.1988	4.0	1120	0.5265	0.2256
0.1755	5.0	1400	0.5577	0.2212
0.1474	6.0	1680	0.6353	0.2241
0.1498	7.0	1960	0.5758	0.2086
0.1252	8.0	2240	0.5738	0.2052
0.1174	9.0	2520	0.5994	0.2048
0.1035	10.0	2800	0.5988	0.2038