ai-light-dance_singing_ft_pretrain_wav2vec2-large-lv60开源模型

Ai Light Dance Singing Ft Pretrain Wav2vec2 Large Lv60

由 gary109 开发

该模型是基于wav2vec2-large-lv60架构的自动语音识别(ASR)模型，在GARY109/AI_LIGHT_DANCE - ONSET-SINGING数据集上微调得到，主要用于歌声识别任务。

下载量 22

发布时间 : 6/11/2022

模型简介

这是一个专注于歌声识别的自动语音识别模型，基于wav2vec2-large-lv60架构进行微调，适用于音乐相关的语音识别场景。

歌声识别优化

针对歌声识别任务进行了专门微调，可能比通用语音识别模型在音乐场景下表现更好

基于wav2vec2架构

采用Facebook的wav2vec2-large-lv60预训练模型作为基础，具有强大的语音特征提取能力

低资源适应

通过微调方式适应特定领域，适合在有限数据情况下进行领域适配

歌声识别

自动语音识别

音乐内容转录

音乐技术

歌曲歌词转录

将演唱的歌曲自动转录为文字歌词

词错误率(WER)约为0.92

音乐教育辅助

帮助音乐学习者识别和纠正演唱发音

训练损失	轮数	步数	验证损失	字错率（Wer）
1.6096	1.0	552	1.7650	1.0053
1.6294	2.0	1104	1.6735	0.9591
1.5509	3.0	1656	1.6170	0.9852
1.5175	4.0	2208	1.6312	0.9626
1.5267	5.0	2760	1.5032	0.9249
1.4055	6.0	3312	1.6107	0.9438
1.3267	7.0	3864	1.5386	0.9378
1.312	8.0	4416	1.4961	0.9206
1.3245	9.0	4968	1.5158	0.9182
1.2885	10.0	5520	1.5296	0.9230