wav2vec2-base-cv开源语音识别模型 - 免费部署精准识别语音内容

Wav2vec2 Base Cv

由 jiobiala24 开发

基于facebook/wav2vec2-base在common_voice数据集上微调的语音识别模型

下载量 24

发布时间 : 3/8/2022

模型简介

这是一个用于语音识别任务的模型，基于wav2vec2架构，在common_voice数据集上进行了微调。

高效微调

基于预训练的wav2vec2-base模型进行微调，提高了在common_voice数据集上的识别准确率

良好性能

在评估集上取得了0.3804的词错误率(WER)，表现良好

优化训练

使用了线性学习率调度和预热策略，训练过程稳定

语音转文本

自动语音识别

语音转录

语音转文字

将语音内容转换为文本形式

词错误率0.3804

语音助手

语音指令识别

识别和理解用户的语音指令

训练损失	轮数	步数	验证损失	字错率（Wer）
4.563	3.18	500	2.9826	1.0
2.0012	6.37	1000	0.9528	0.5354
0.4841	9.55	1500	0.8838	0.4325
0.2748	12.74	2000	0.9437	0.4130
0.1881	15.92	2500	0.9603	0.4005
0.1426	19.11	3000	1.0605	0.3955
0.1134	22.29	3500	1.0733	0.3897
0.0963	25.48	4000	1.1387	0.3835
0.0829	28.66	4500	1.1562	0.3804