wav2vec2-base_toy_train_data_masked_audio开源语音识别模型

Wav2vec2 Base Toy Train Data Masked Audio

由 scasutt 开发

基于facebook/wav2vec2-base微调的语音识别模型，在玩具数据集上训练，支持音频掩码任务

下载量 22

发布时间 : 3/26/2022

模型简介

该模型是基于wav2vec2-base架构的变体，专门针对音频掩码任务进行优化，适用于语音识别和音频特征提取场景

音频掩码能力

专门针对音频掩码任务进行优化，能够有效处理被掩码的音频输入

轻量级微调

基于预训练的wav2vec2-base模型进行微调，适合小规模数据集

渐进式性能提升

训练过程中词错误率从1.0逐步降低到0.7340，显示良好的学习曲线

语音识别

音频特征提取

掩码音频预测

语音处理

噪声环境语音识别

在部分音频被掩码或噪声干扰的情况下进行语音识别

词错误率0.7340

音频数据增强

用于生成音频掩码任务的训练数据

训练损失	轮数	步数	验证损失	字错率（Wer）
3.1287	2.1	250	3.4581	1.0
3.0259	4.2	500	2.8099	0.9999
1.4881	6.3	750	1.2929	0.8950
0.9665	8.4	1000	1.1675	0.8346
0.7614	10.5	1250	1.1388	0.8003
0.5858	12.6	1500	1.1510	0.7672
0.5005	14.7	1750	1.1606	0.7532
0.4486	16.8	2000	1.1571	0.7427
0.4224	18.9	2250	1.1950	0.7340