wav2vec2-base-timit-demo-colab12开源语音识别模型 - 免费部署低错误率精准识别

Wav2vec2 Base Timit Demo Colab12

由 sameearif88 开发

基于facebook/wav2vec2-base模型在TIMIT数据集上微调的语音识别模型，词错误率(WER)为0.3546

下载量 16

发布时间 : 5/1/2022

模型简介

该模型是用于英语语音识别的预训练模型，通过微调在TIMIT数据集上实现了较好的识别准确率

低词错误率

在评估集上达到0.3546的词错误率(WER)，表现优异

基于wav2vec2架构

采用Facebook开源的wav2vec2-base模型作为基础架构

微调优化

通过30轮次的精细调优，显著提升了原模型的识别性能

英语语音识别

音频转文本

语音内容分析

语音转录

会议记录自动生成

将会议录音自动转换为文字记录

准确率约65%（基于WER 0.3546推算）

语音助手

语音指令识别

识别用户语音指令并转换为可执行命令

训练损失	轮数	步数	验证损失	字错率（Wer）
4.1683	3.52	500	1.3684	0.7364
0.7614	7.04	1000	0.6008	0.5218
0.4721	10.56	1500	0.5319	0.4614
0.3376	14.08	2000	0.5234	0.4308
0.2508	17.61	2500	0.5109	0.3998
0.1978	21.13	3000	0.5037	0.3721
0.1645	24.65	3500	0.4918	0.3622
0.1449	28.17	4000	0.4831	0.3546