ai-light-dance_singing2_ft_wav2vec2开源模型 - 精准识别歌唱语音，免费部署易用！

Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53 5gram V4 1

由 gary109 开发

该模型是基于wav2vec2-large-xlsr-53架构的自动语音识别(ASR)模型，在GARY109/AI_LIGHT_DANCE - ONSET-SINGING2数据集上微调得到，主要用于歌唱语音识别任务。

下载量 66

发布时间 : 6/28/2022

模型简介

这是一个专门针对歌唱语音优化的自动语音识别模型，基于wav2vec2-large-xlsr-53架构，在特定歌唱数据集上进行了微调，能够准确识别歌唱内容。

歌唱语音优化

专门针对歌唱内容进行优化，相比通用语音识别模型在歌唱场景下表现更佳

高准确率

在评估集上取得了12.11%的词错误率(WER)，表现良好

基于wav2vec2架构

采用强大的wav2vec2-large-xlsr-53作为基础模型，具备优秀的语音特征提取能力

歌唱语音识别

自动语音转文本

音乐内容分析

音乐技术

歌唱内容转录

将歌唱录音自动转换为文本歌词

词错误率12.11%

音乐内容分析

分析歌唱内容用于音乐信息检索

训练损失	轮数	步数	验证损失	字错率（Wer）
0.2609	1.0	280	0.2313	0.1376
0.2297	2.0	560	0.2240	0.1397
0.1951	3.0	840	0.2280	0.1361
0.1816	4.0	1120	0.2215	0.1282
0.1634	5.0	1400	0.2180	0.1240
0.1338	6.0	1680	0.2226	0.1241
0.1411	7.0	1960	0.2143	0.1211
0.1143	8.0	2240	0.2181	0.1174
0.1127	9.0	2520	0.2215	0.1167
0.105	10.0	2800	0.2196	0.1160