wav2vec2-large-xlsr-53-demo-colab开源语音识别模型

Wav2vec2 Large Xlsr 53 Demo Colab

由 project2you 开发

基于facebook/wav2vec2-large-xlsr-53在common_voice数据集上微调的语音识别模型

下载量 21

发布时间 : 3/2/2022

模型简介

这是一个针对语音识别任务进行优化的模型，基于wav2vec2架构，在common_voice数据集上进行了微调训练。

高效微调

基于预训练的wav2vec2-large-xlsr-53模型进行微调，提高了在目标数据集上的性能

低词错误率

在评估集上取得了1.6299的词错误率(WER)，表现优异

混合精度训练

使用原生AMP进行混合精度训练，提高了训练效率

语音识别

自动语音转文本

语音转录

语音转文字

将语音内容转换为文字记录

词错误率低至1.6299

训练损失	轮数	步数	验证损失	字错率（Wer）
8.5034	3.42	400	3.5852	1.0
1.7853	6.83	800	0.7430	1.6774
0.5675	10.26	1200	0.6513	1.6330
0.3761	13.67	1600	0.6208	1.6081
0.2776	17.09	2000	0.6401	1.6081
0.2266	20.51	2400	0.6410	1.6295
0.1949	23.93	2800	0.6910	1.6287
0.1672	27.35	3200	0.6901	1.6299