wav2vec2-base-timit-demo-google-colab开源语音识别模型

Wav2vec2 Base Timit Demo Google Colab

由 neweasterns 开发

该模型是基于facebook/wav2vec2-base在TIMIT数据集上微调得到的语音识别模型，主要用于英语语音转文本任务。

下载量 100

发布时间 : 6/27/2022

模型简介

基于wav2vec2架构的语音识别模型，经过TIMIT数据集微调，能够将英语语音转换为文本。

高效微调

基于预训练的wav2vec2-base模型进行微调，显著提升了在TIMIT数据集上的识别准确率

低词错误率

经过30轮训练后，词错误率(WER)降至0.3388，表现优于基础模型

优化训练

采用Adam优化器和线性学习率调度器，包含1000步预热，确保训练稳定性

英语语音识别

语音转文本

自动语音识别

语音转录

会议记录

将英语会议录音自动转换为文字记录

词错误率约34%

语音指令识别

识别英语语音指令并转换为可执行命令

教育

发音评估

用于英语学习者的发音准确度评估

训练损失	轮数	步数	验证损失	字错率（Wer）
3.5597	1.0	500	2.3415	0.9991
0.9759	2.01	1000	0.5556	0.5382
0.4587	3.01	1500	0.7690	0.4781
0.3156	4.02	2000	0.7994	0.4412
0.2272	5.02	2500	0.8948	0.4120
0.1921	6.02	3000	0.7065	0.3940
0.1618	7.03	3500	0.4333	0.3855
0.1483	8.03	4000	0.4232	0.3872
0.156	9.04	4500	0.4172	0.3749
0.1138	10.04	5000	0.4084	0.3758
0.1045	11.04	5500	0.4665	0.3623
0.0908	12.05	6000	0.4416	0.3684
0.0788	13.05	6500	0.4801	0.3659
0.0773	14.06	7000	0.4560	0.3583
0.0684	15.06	7500	0.4878	0.3610
0.0645	16.06	8000	0.4635	0.3567
0.0577	17.07	8500	0.5245	0.3548
0.0547	18.07	9000	0.5265	0.3639
0.0466	19.08	9500	0.5161	0.3546
0.0432	20.08	10000	0.5263	0.3558
0.0414	21.08	10500	0.4874	0.3500
0.0365	22.09	11000	0.5266	0.3472
0.0321	23.09	11500	0.5422	0.3458
0.0325	24.1	12000	0.5201	0.3428
0.0262	25.1	12500	0.5208	0.3398
0.0249	26.1	13000	0.5034	0.3429
0.0262	27.11	13500	0.5055	0.3396
0.0248	28.11	14000	0.5164	0.3404
0.0222	29.12	14500	0.5206	0.3388