wav2vec2-base-repro-timit开源自动语音识别模型

Wav2vec2 Base Repro Timit

由 patrickvonplaten 开发

该模型是基于patrickvonplaten/wav2vec2-base-repro-960h-libri-85k-steps在TIMIT_ASR - NA数据集上微调的自动语音识别模型。

下载量 20

发布时间 : 3/2/2022

模型简介

这是一个用于英语语音识别的模型，基于wav2vec2架构，在TIMIT_ASR数据集上微调，可用于将英语语音转换为文本。

基于wav2vec2架构

采用Facebook AI的wav2vec2架构，具有良好的语音识别性能

TIMIT ASR数据集微调

在TIMIT ASR数据集上进行微调，针对英语语音识别进行了优化

逐步改进的性能

从训练结果可见，模型在20轮训练中逐步提高了识别准确率

英语语音识别

音频转文本

语音转录

英语语音转文字

将英语语音内容转换为文本格式

词错误率(WER)0.5484

语音辅助技术

语音命令识别

识别简单的语音命令

本模型是基于 patrickvonplaten/wav2vec2-base-repro-960h-libri-85k-steps 在 TIMIT_ASR - NA 数据集上进行微调后的版本。它在评估集上取得了以下结果：

训练过程中使用了以下超参数：

属性	详情
学习率（learning_rate）	0.0001
训练批次大小（train_batch_size）	32
评估批次大小（eval_batch_size）	1
随机种子（seed）	42
优化器（optimizer）	Adam（β1=0.9，β2=0.999，ε=1e-08）
学习率调度器类型（lr_scheduler_type）	线性（linear）
学习率调度器热身步数（lr_scheduler_warmup_steps）	1000
训练轮数（num_epochs）	20.0
混合精度训练（mixed_precision_training）	原生自动混合精度（Native AMP）

训练损失（Training Loss）	轮数（Epoch）	步数（Step）	验证损失（Validation Loss）	词错误率（Wer）
5.9793	0.69	100	5.4532	1.0
2.9066	1.38	200	2.9070	1.0
2.2562	2.07	300	2.0323	1.0
1.5273	2.76	400	1.1510	0.8001
1.1085	3.45	500	0.9521	0.7053
0.813	4.14	600	0.8617	0.6702
0.8434	4.83	700	0.8068	0.6393
0.9631	5.52	800	0.7863	0.6248
0.707	6.21	900	0.7476	0.5973
0.5568	6.9	1000	0.7350	0.5911
0.6171	7.59	1100	0.7171	0.5841
0.7011	8.28	1200	0.7318	0.5798
0.5546	8.97	1300	0.7447	0.5767
0.4278	9.66	1400	0.7481	0.5650
0.3576	10.34	1500	0.7443	0.5713
0.5506	11.03	1600	0.7574	0.5664
0.4127	11.72	1700	0.8043	0.5631
0.3251	12.41	1800	0.7738	0.5550
0.3119	13.1	1900	0.7829	0.5516
0.4371	13.79	2000	0.8025	0.5556
0.3772	14.48	2100	0.8451	0.5559
0.2942	15.17	2200	0.8300	0.5556
0.2503	15.86	2300	0.8417	0.5541
0.3671	16.55	2400	0.8568	0.5528
0.3867	17.24	2500	0.8521	0.5510
0.2614	17.93	2600	0.8479	0.5523
0.2441	18.62	2700	0.8558	0.5494
0.3059	19.31	2800	0.8553	0.5474
0.3734	20.0	2900	0.8562	0.5484