wavlm-libri-clean-100h-base-plus开源自动语音识别模型

Wavlm Libri Clean 100h Base Plus

由 patrickvonplaten 开发

基于microsoft/wavlm-base-plus在LIBRISPEECH_ASR - CLEAN数据集上微调的自动语音识别模型

下载量 126.17k

发布时间 : 3/2/2022

模型简介

该模型是针对英语语音识别任务优化的WavLM模型，在LibriSpeech clean-100h数据集上进行了微调，取得了较低的词错误率(WER)。

高效微调

基于预训练的WavLM-base-plus模型进行微调，充分利用预训练模型的强大特征提取能力

低词错误率

在评估集上取得了0.0683的词错误率(WER)，表现出色

多GPU训练优化

采用8GPU并行训练，总批次大小达到32，训练效率高

英语语音识别

连续语音转文本

高准确率转录

语音转录

有声书转录

将英语有声读物内容自动转录为文本

在LibriSpeech数据集上达到6.83%的词错误率

会议记录

将英语会议录音自动转换为文字记录

训练损失	轮数	步数	验证损失	词错误率（Wer）
2.8877	0.34	300	2.8649	1.0
0.2852	0.67	600	0.2196	0.1830
0.1198	1.01	900	0.1438	0.1273
0.0906	1.35	1200	0.1145	0.1035
0.0729	1.68	1500	0.1055	0.0955
0.0605	2.02	1800	0.0936	0.0859
0.0402	2.35	2100	0.0885	0.0746
0.0421	2.69	2400	0.0848	0.0700