wav2vec2-large-voxrex-npsc开源自动语音识别模型

Wav2vec2 Large Voxrex Npsc

由 NbAiLab 开发

基于KBLab/wav2vec2-large-voxrex在NBAILAB/NPSC - 16K_MP3数据集上微调的自动语音识别模型

下载量 37

发布时间 : 3/2/2022

模型简介

本模型是针对挪威语语音识别任务优化的自动语音识别(ASR)模型，在NPSC数据集上微调，适用于挪威语语音转文本任务。

挪威语优化

专门针对挪威语语音识别任务进行微调优化

基于wav2vec2架构

采用强大的wav2vec2-large-voxrex基础模型

强健语音处理

能够处理各种语音质量和环境条件下的语音输入

挪威语语音识别

语音转文本

16kHz音频处理

语音转录

挪威语会议记录

将挪威语会议录音自动转录为文字记录

在NPSC评估集上达到约11%的词错误率

语音助手

为挪威语语音助手提供语音识别能力

本模型是 KBLab/wav2vec2-large-voxrex 在 NBAILAB/NPSC - 16K_MP3 数据集上的微调版本。它在评估集上取得了以下结果：

更多信息待补充。

更多信息待补充。

更多信息待补充。

训练期间使用了以下超参数：

训练损失	轮数	步数	验证损失	字错率（Wer）
2.9728	0.32	500	2.9449	1.0
2.5099	0.64	1000	1.8492	0.9910
0.7872	0.97	1500	0.4467	0.3774
0.5993	1.29	2000	0.3181	0.2819
0.5134	1.61	2500	0.2638	0.2401
0.4544	1.93	3000	0.2287	0.2091
0.4085	2.26	3500	0.2153	0.1918
0.3921	2.58	4000	0.2004	0.1804
0.4613	2.9	4500	0.1905	0.1732
0.3402	3.22	5000	0.1778	0.1659
0.3258	3.55	5500	0.1732	0.1571
0.3044	3.87	6000	0.1677	0.1497
0.2914	4.19	6500	0.1597	0.1420
0.278	4.51	7000	0.1574	0.1386
0.2858	4.84	7500	0.1552	0.1300
0.2585	5.16	8000	0.1523	0.1276
0.2827	5.48	8500	0.1448	0.1265
0.3365	5.8	9000	0.1411	0.1232
0.2488	6.13	9500	0.1456	0.1195
0.2406	6.45	10000	0.1414	0.1194
0.2488	6.77	10500	0.1393	0.1173
0.3084	7.09	11000	0.1379	0.1164
0.2365	7.41	11500	0.1387	0.1165
0.2217	7.74	12000	0.1381	0.1132
0.2381	8.06	12500	0.1360	0.1126
0.2329	8.38	13000	0.1357	0.1124
0.2103	8.7	13500	0.1335	0.1087
0.2366	9.03	14000	0.1388	0.1105
0.2289	9.35	14500	0.1383	0.1098
0.2486	9.67	15000	0.1386	0.1087
0.2772	9.99	15500	0.1598	0.1093
0.2728	10.32	16000	0.1814	0.1110
0.3437	10.64	16500	0.2505	0.1124
0.431	10.96	17000	0.2828	0.1143
0.3929	11.28	17500	0.2977	0.1149
0.4396	11.61	18000	0.3198	0.1170
0.59	11.93	18500	0.4158	0.1315
0.7813	12.25	19000	0.6123	0.2208
0.9345	12.57	19500	0.6815	0.2885
0.998	12.89	20000	0.7587	0.1991
1.0493	13.22	20500	0.7583	0.1996
1.438	13.54	21000	nan	1.0
0.0	13.86	21500	nan	1.0
0.0	14.18	22000	nan	1.0
0.0	14.51	22500	nan	1.0
0.0	14.83	23000	nan	1.0