wav2vec2-base_toy_train_data_augmented开源语音识别模型

Wav2vec2 Base Toy Train Data Augmented

由 scasutt 开发

基于facebook/wav2vec2-base模型微调的语音识别模型，在增强训练数据上进行了优化。

下载量 22

发布时间 : 3/26/2022

模型简介

该模型是一个语音识别模型，基于wav2vec2架构，通过微调在特定数据集上提升了识别准确率。

数据增强训练

模型在训练过程中使用了数据增强技术，提升了泛化能力。

低词错误率

经过微调后，模型在验证集上取得了较低的词错误率（Wer）。

语音识别

音频转文本

语音转写

会议记录转写

将会议录音自动转写为文本，便于记录和检索。

语音助手

用于语音助手中的语音识别模块，提升识别准确率。

训练损失	轮数	步数	验证损失	词错误率（Wer）
3.12	1.05	250	3.3998	0.9982
3.0727	2.1	500	3.1261	0.9982
1.9729	3.15	750	1.4868	0.9464
1.3213	4.2	1000	1.2598	0.8833
1.0508	5.25	1250	1.0014	0.8102
0.8483	6.3	1500	0.9475	0.7944
0.7192	7.35	1750	0.9493	0.7686
0.6447	8.4	2000	0.9872	0.7573
0.6064	9.45	2250	0.9587	0.7447
0.5384	10.5	2500	0.9332	0.7320
0.4985	11.55	2750	0.9926	0.7315
0.4643	12.6	3000	1.0008	0.7292
0.4565	13.65	3250	0.9522	0.7171
0.449	14.7	3500	0.9685	0.7140
0.4307	15.75	3750	1.0080	0.7077
0.4239	16.81	4000	0.9950	0.7023
0.389	17.86	4250	1.0260	0.7007
0.3471	18.91	4500	1.0012	0.6966
0.3276	19.96	4750	1.0238	0.6969