ai-light-dance_singing_ft_wav2vec2-large-xlsr-53开源模型

Ai Light Dance Singing Ft Wav2vec2 Large Xlsr 53

由 gary109 开发

该模型是基于facebook/wav2vec2-large-xlsr-53在AI_LIGHT_DANCE - ONSET-SINGING数据集上微调的自动语音识别模型，主要用于歌唱语音识别任务。

下载量 23

发布时间 : 6/15/2022

模型简介

这是一个针对歌唱语音识别任务优化的自动语音识别模型，基于wav2vec2-large-xlsr-53架构微调而成，在评估集上取得了20.43%的词错误率。

歌唱语音识别优化

专门针对歌唱语音进行微调，相比通用语音识别模型在歌唱场景表现更优

低词错误率

在评估集上取得20.43%的词错误率，表现良好

基于XLSR架构

采用跨语言语音表示学习的大规模预训练模型作为基础

歌唱语音识别

音频转文本

音乐内容分析

音乐分析

歌唱歌词转录

将歌唱录音自动转换为歌词文本

词错误率20.43%

音乐内容检索

通过歌词内容搜索音乐片段

音乐教育

歌唱练习评估

分析歌唱录音与标准歌词的匹配度

训练损失	轮数	步数	验证损失	字错率（Wer）
1.4089	1.0	552	1.4750	0.9054
0.7995	2.0	1104	0.9044	0.6163
0.6232	3.0	1656	0.6645	0.3980
0.5351	4.0	2208	0.5674	0.3120
0.472	5.0	2760	0.5167	0.2579
0.3913	6.0	3312	0.4553	0.2335
0.3306	7.0	3864	0.4476	0.2114
0.3028	8.0	4416	0.4327	0.2043
0.317	9.0	4968	0.4355	0.2033
0.2494	10.0	5520	0.4405	0.2022