ai-light-dance_singing_ft_wav2vec2-large-lv60开源模型

Ai Light Dance Singing Ft Wav2vec2 Large Lv60

由 gary109 开发

该模型是基于facebook/wav2vec2-large-lv60在AI_LIGHT_DANCE.PY - ONSET-SINGING数据集上微调的自动语音识别模型

下载量 16

发布时间 : 5/15/2022

模型简介

一个用于语音识别任务的微调模型，特别针对歌唱内容进行了优化

歌唱内容识别优化

针对歌唱内容进行了专门微调，可能比通用语音识别模型在歌唱内容上表现更好

低词错误率

在评估集上取得了0.2088的词错误率(WER)，表现良好

基于wav2vec2架构

采用facebook的wav2vec2-large-lv60作为基础模型，具有强大的语音特征提取能力

语音识别

歌唱内容识别

音乐相关应用

歌唱内容转录

将歌唱音频转换为文字

词错误率0.2088

音乐教育辅助

帮助音乐学习者分析歌唱内容

训练损失	轮数	步数	验证损失	字错率（Wer）
0.7432	1.0	4422	0.8939	0.6323
0.5484	2.0	8844	0.6393	0.3557
0.3919	3.0	13266	0.5315	0.2833
0.421	4.0	17688	0.5234	0.2522
0.3957	5.0	22110	0.5125	0.2247
0.3228	6.0	26532	0.4542	0.2088
0.346	7.0	30954	0.4673	0.1997
0.1637	8.0	35376	0.4583	0.1910
0.1508	9.0	39798	0.4623	0.1837
0.1564	10.0	44220	0.4717	0.1835

属性	详情
模型类型	基于 facebook/wav2vec2-large-lv60 在 AI_LIGHT_DANCE.PY - ONSET - SINGING 数据集上微调的模型
训练数据	ai_light_dance 数据集
标签	自动语音识别、AI_Light_Dance.py、由训练器生成