ai-light-dance_singing2_ft_wav2vec2开源语音识别模型

Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53 5gram V4 2

由 gary109 开发

基于wav2vec2-large-xlsr-53模型微调的自动语音识别模型，在GARY109/AI_LIGHT_DANCE数据集上训练

下载量 68

发布时间 : 6/29/2022

模型简介

该模型是用于语音识别任务的微调版本，特别针对歌唱语音进行了优化

歌唱语音识别优化

专门针对歌唱语音进行了微调，可能对音乐相关语音识别有更好表现

基于wav2vec2架构

采用先进的wav2vec2-large-xlsr-53架构，具有良好的语音识别基础

低词错误率

在评估集上取得了9.1%的词错误率，表现良好

语音转文本

歌唱语音识别

音乐应用

歌词转录

将歌唱录音自动转换为歌词文本

词错误率约9.1%

语音识别

语音转写

将语音内容转换为文字

训练损失值	轮数	步数	验证损失值	字错率
0.2664	1.0	8969	0.3347	0.1645
0.2032	2.0	17938	0.3170	0.1662
0.1888	3.0	26907	0.3188	0.1317
0.1774	4.0	35876	0.2885	0.1195
0.0696	5.0	44845	0.2703	0.1105
0.254	6.0	53814	0.2817	0.0972
0.0464	7.0	62783	0.2691	0.0910
0.0426	8.0	71752	0.3033	0.0875
0.035	9.0	80721	0.3150	0.0841
0.0274	10.0	89690	0.3073	0.0816