wav2vec2-base_toy_train_data_random_noise开源语音识别模型

Wav2vec2 Base Toy Train Data Random Noise

由 scasutt 开发

该模型是基于facebook/wav2vec2-base在玩具训练数据上微调的语音识别模型，主要用于处理随机噪声环境下的语音识别任务。

下载量 22

发布时间 : 3/27/2022

模型简介

这是一个经过微调的wav2vec2-base模型，专门用于在随机噪声环境下进行语音识别。模型在评估集上取得了0.7351的词错误率。

噪声环境适应

针对随机噪声环境进行了优化，提高了在嘈杂条件下的语音识别准确率

基于wav2vec2架构

建立在强大的wav2vec2-base模型基础上，继承了其优秀的语音特征提取能力

语音识别

噪声环境下的语音处理

语音转录

嘈杂环境下的语音转录

将包含随机噪声的语音转换为文字

词错误率0.7351

训练损失	轮数	步数	验证损失	字错率（Wer）
3.128	2.1	250	3.5052	1.0
3.0423	4.2	500	2.9312	1.0
1.4109	6.3	750	1.2618	0.8915
0.9132	8.4	1000	1.1074	0.8436
0.7146	10.5	1250	1.0397	0.7876
0.5418	12.6	1500	1.0359	0.7662
0.4649	14.7	1750	1.0469	0.7467
0.4127	16.8	2000	1.0655	0.7404
0.3881	18.9	2250	1.0909	0.7351