ai-light-dance_singing_ft_wav2vec2-large-xlsr-53-5gram-v1开源模型

Ai Light Dance Singing Ft Wav2vec2 Large Xlsr 53 5gram V1

由 gary109 开发

该模型是基于wav2vec2-large-xlsr-53的自动语音识别模型，在GARY109/AI_LIGHT_DANCE - ONSET-SINGING数据集上微调得到，主要用于歌唱语音识别。

下载量 18

发布时间 : 6/18/2022

模型简介

这是一个用于歌唱语音识别的自动语音识别模型，基于wav2vec2-large-xlsr-53架构微调，在特定歌唱数据集上表现出色。

高精度歌唱识别

在ONSET-SINGING数据集上微调，专门针对歌唱语音识别优化

基于wav2vec2架构

采用强大的wav2vec2-large-xlsr-53作为基础模型

低词错误率

在评估集上取得16.68%的词错误率

歌唱语音识别

自动语音转录

音乐技术

歌唱内容转录

将歌唱录音自动转换为文本

词错误率16.68%

音乐教育辅助

帮助音乐学习者分析歌唱发音

训练损失	轮数	步数	验证损失	字错率（Wer）
0.2696	1.0	552	0.4421	0.2013
0.2498	2.0	1104	0.4389	0.1887
0.2387	3.0	1656	0.4154	0.1788
0.1902	4.0	2208	0.4143	0.1753
0.1896	5.0	2760	0.4123	0.1668
0.1658	6.0	3312	0.4366	0.1651
0.1312	7.0	3864	0.4309	0.1594
0.1186	8.0	4416	0.4432	0.1561
0.1476	9.0	4968	0.4400	0.1569
0.1027	10.0	5520	0.4389	0.1554