wav2vec2-base_toy_train_data_random_noise_0.1开源语音识别模型

Wav2vec2 Base Toy Train Data Random Noise 0.1

由 scasutt 开发

基于facebook/wav2vec2-base模型在随机噪声数据集上微调的语音识别模型

下载量 22

发布时间 : 3/26/2022

模型简介

该模型是wav2vec2-base的微调版本，主要用于语音识别任务，在添加了随机噪声的数据集上进行了训练。

噪声鲁棒性

在添加了随机噪声的数据集上训练，具有一定程度的噪声鲁棒性

基于wav2vec2架构

采用Facebook的wav2vec2-base架构，具有良好的语音特征提取能力

语音识别

噪声环境下的语音处理

语音识别

噪声环境语音转录

在有一定背景噪声的环境中识别和转录语音

词错误率(WER)为0.7213

训练损失	轮数	步数	验证损失	字错误率（Wer）
3.1296	2.1	250	3.5088	1.0
3.0728	4.2	500	3.1694	1.0
1.8686	6.3	750	1.3414	0.9321
1.1241	8.4	1000	1.0196	0.8321
0.8704	10.5	1250	0.9387	0.7962
0.6734	12.6	1500	0.9309	0.7640
0.5832	14.7	1750	0.9329	0.7346
0.5207	16.8	2000	0.9060	0.7247
0.4857	18.9	2250	0.9263	0.7213