wav2vec2-librispeech-clean-100h-demo-dist开源语音识别模型

Wav2vec2 Librispeech Clean 100h Demo Dist

由 patrickvonplaten 开发

基于facebook/wav2vec2-large-lv60在LIBRISPEECH_ASR-CLEAN数据集上微调的语音识别模型

下载量 15

发布时间 : 3/2/2022

模型简介

该模型是一个语音识别模型，专门针对LIBRISPEECH_ASR-CLEAN数据集进行了优化，能够将语音转换为文本。

高效微调

基于facebook/wav2vec2-large-lv60模型在LIBRISPEECH_ASR-CLEAN数据集上进行了高效微调。

低词错误率

在评估集上实现了0.0417的词错误率(WER)，表现优异。

分布式训练

支持多GPU分布式训练，提高了训练效率。

语音识别

英语语音转文本

语音转写

会议记录

将会议录音自动转换为文字记录

准确率较高，词错误率仅为0.0417

语音助手

用于语音助手的语音识别模块

该模型是 facebook/wav2vec2-large-lv60 在 LIBRISPEECH_ASR - CLEAN 数据集上的微调版本。它在评估集上取得了以下结果：

更多信息待补充。

更多信息待补充。

更多信息待补充。

训练期间使用了以下超参数：

训练损失	轮数	步数	验证损失	字错率（Wer）
3.399	0.11	100	3.6153	1.0
2.8892	0.22	200	2.8963	1.0
2.8284	0.34	300	2.8574	1.0
0.7347	0.45	400	0.6158	0.4850
0.1138	0.56	500	0.2038	0.1560
0.248	0.67	600	0.1274	0.1024
0.2586	0.78	700	0.1108	0.0876
0.0733	0.9	800	0.0936	0.0762
0.044	1.01	900	0.0834	0.0662
0.0393	1.12	1000	0.0792	0.0622
0.0941	1.23	1100	0.0769	0.0627
0.036	1.35	1200	0.0731	0.0603
0.0768	1.46	1300	0.0713	0.0559
0.0518	1.57	1400	0.0686	0.0537
0.0815	1.68	1500	0.0639	0.0515
0.0603	1.79	1600	0.0636	0.0500
0.056	1.91	1700	0.0609	0.0480
0.0265	2.02	1800	0.0621	0.0465
0.0496	2.13	1900	0.0607	0.0449
0.0436	2.24	2000	0.0591	0.0446
0.0421	2.35	2100	0.0590	0.0428
0.0641	2.47	2200	0.0603	0.0443
0.0466	2.58	2300	0.0580	0.0429
0.0132	2.69	2400	0.0574	0.0423
0.0073	2.8	2500	0.0586	0.0417
0.0021	2.91	2600	0.0574	0.0412