wav2vec2-large-xlsr-53微调语音识别模型开源 - 优化10ms音频掩码数据识别

Wav2vec2 Large Xlsr 53 Toy Train Data Masked Audio 10ms

由 scasutt 开发

基于facebook/wav2vec2-large-xlsr-53微调的语音识别模型，在10ms音频掩码训练数据上优化

下载量 22

发布时间 : 3/28/2022

模型简介

该模型是针对语音识别任务优化的版本，通过微调提升了在特定条件下的识别准确率

10ms音频掩码训练

使用10ms音频掩码的特殊训练方法，可能提高了模型对短时音频特征的识别能力

微调优化

基于预训练模型进行微调，在特定数据集上取得了更好的性能表现

语音识别

音频特征提取

语音转文字

语音转录

将语音内容转换为文字

词错误率0.4929

训练损失	轮数	步数	验证损失	字错率（Wer）
3.4049	1.05	250	3.3497	1.0
3.0851	2.1	500	3.4440	1.0
2.3512	3.15	750	1.5938	0.9317
1.1762	4.2	1000	0.8481	0.7333
0.903	5.25	1250	0.7180	0.6484
0.6754	6.3	1500	0.6603	0.6044
0.5961	7.35	1750	0.6410	0.5778
0.5325	8.4	2000	0.6245	0.5545
0.4685	9.45	2250	0.5925	0.5359
0.4526	10.5	2500	0.5991	0.5345
0.3975	11.55	2750	0.5916	0.5228
0.3672	12.6	3000	0.5882	0.5037
0.3774	13.65	3250	0.5693	0.5028
0.3489	14.7	3500	0.5645	0.5018
0.3593	15.75	3750	0.5977	0.5043
0.3167	16.81	4000	0.6049	0.5018
0.3225	17.86	4250	0.6172	0.4921
0.2807	18.91	4500	0.5937	0.4923
0.2889	19.96	4750	0.5945	0.4929