ai-light-dance_singing_ft_wav2vec2-large-lv60-v2开源模型

Ai Light Dance Singing Ft Wav2vec2 Large Lv60 V2

由 gary109 开发

该模型是基于wav2vec2-large-lv60在ONSET-SINGING数据集上微调的自动语音识别模型，专注于歌唱语音识别任务。

下载量 16

发布时间 : 5/18/2022

模型简介

这是一个针对歌唱语音识别优化的自动语音识别模型，在词错误率(WER)指标上表现良好。

歌唱语音优化

专门针对歌唱语音进行了微调，在歌唱语音识别任务上表现优于通用语音识别模型

低词错误率

在评估集上取得了0.1858的词错误率(WER)，表现优异

基于wav2vec2架构

采用Facebook的wav2vec2-large-lv60作为基础模型，具备强大的语音特征提取能力

歌唱语音识别

自动语音转文本

音乐内容分析

音乐科技

歌唱语音转歌词

将歌唱录音自动转换为歌词文本

词错误率0.1858

音乐内容分析

分析歌曲中的歌词内容

娱乐应用

卡拉OK歌词同步

实时识别歌唱内容并同步显示歌词

训练损失	轮数	步数	验证损失	字错率（Wer）
0.2775	1.0	1106	0.4372	0.2117
0.2154	2.0	2212	0.4474	0.2044
0.2023	3.0	3318	0.4372	0.1920
0.186	4.0	4424	0.4285	0.1858
0.1856	5.0	5530	0.4589	0.1826
0.1537	6.0	6636	0.4658	0.1774
0.1337	7.0	7742	0.4769	0.1744
0.108	8.0	8848	0.4604	0.1724
0.1593	9.0	9954	0.4731	0.1694
0.0904	10.0	11060	0.4843	0.1683