wav2vec2-random开源自动语音识别模型 - 基于TIMIT

Wav2vec2 Random

由 patrickvonplaten 开发

基于TIMIT_ASR数据集对wav2vec2-base-random模型进行微调的自动语音识别模型

下载量 16

发布时间 : 3/2/2022

模型简介

该模型是用于英语语音识别的wav2vec2架构实现，在TIMIT_ASR数据集上进行了微调，能够将语音转换为文本

基于wav2vec2架构

采用Facebook Research提出的wav2vec2自监督学习架构

TIMIT_ASR数据集微调

在标准TIMIT语音识别数据集上进行微调

中等规模模型

基于wav2vec2-base架构，适合中等计算资源环境

英语语音识别

语音转文本

语音转录

语音记录转写

将英语语音记录转换为文字稿

在TIMIT评估集上达到0.8364词错误率

语音接口

语音命令识别

识别简单的英语语音命令

本模型是 patrickvonplaten/wav2vec2-base-random 在 TIMIT_ASR - NA 数据集上的微调版本。它在评估集上取得了以下结果：

本模型是在特定数据集上微调所得，可用于自动语音识别任务。若要使用该模型，可参考 Hugging Face 相关文档进行部署和推理。

此模型基于 patrickvonplaten/wav2vec2-base-random 进行微调，在 TIMIT_ASR - NA 数据集上进行训练和评估。

更多信息待补充。

更多信息待补充。

训练过程中使用了以下超参数：

训练损失	轮数	步数	验证损失	词错误率（Wer）
2.9043	0.69	100	2.9683	1.0
2.8537	1.38	200	2.9281	0.9997
2.7803	2.07	300	2.7330	0.9999
2.6806	2.76	400	2.5792	1.0
2.4136	3.45	500	2.4327	0.9948
2.1682	4.14	600	2.3508	0.9877
2.2577	4.83	700	2.2176	0.9773
2.355	5.52	800	2.1753	0.9542
1.8588	6.21	900	2.0650	0.8851
1.6831	6.9	1000	2.0109	0.8618
1.888	7.59	1100	1.9660	0.8418
2.0066	8.28	1200	1.9847	0.8531
1.7044	8.97	1300	1.9760	0.8527
1.3168	9.66	1400	2.0708	0.8327
1.2143	10.34	1500	2.0601	0.8419
1.6189	11.03	1600	2.0960	0.8299
1.13	11.72	1700	2.2540	0.8408
0.8001	12.41	1800	2.4260	0.8306
0.7769	13.1	1900	2.4182	0.8445
1.2165	13.79	2000	2.3666	0.8284
0.8026	14.48	2100	2.7118	0.8662
0.5148	15.17	2200	2.7957	0.8526
0.4921	15.86	2300	2.8244	0.8346
0.7629	16.55	2400	2.8944	0.8370
0.5762	17.24	2500	3.0335	0.8367
0.4076	17.93	2600	3.0776	0.8358
0.3395	18.62	2700	3.1572	0.8261
0.4862	19.31	2800	3.1319	0.8414
0.5061	20.0	2900	3.1593	0.8364