wav2vec2-base-timit-demo-colab-1开源语音识别模型 - 低错误率精准识别语音内容

Wav2vec2 Base Timit Demo Colab 1

由 zasheza 开发

该模型是基于facebook/wav2vec2-base微调的语音识别模型，在TIMIT数据集上训练，词错误率(WER)为0.4398。

下载量 18

发布时间 : 5/1/2022

模型简介

基于wav2vec2架构的语音识别模型，适用于英语语音转文本任务。

基于wav2vec2架构

采用Facebook开源的wav2vec2-base模型架构，具有良好的语音特征提取能力。

微调优化

在TIMIT数据集上进行微调，针对特定语音识别任务优化。

相对较低词错误率

在评估集上达到0.4398的词错误率(WER)，表现优于基础模型。

英语语音识别

语音转文本

语音转录

会议记录

将英语会议录音自动转录为文本

准确率约56.02% (1-WER)

语音笔记

将英语语音笔记转换为可搜索的文本

训练损失	轮数	步数	验证损失	字错率（Wer）
4.8991	5.26	500	1.4319	0.7522
0.8555	10.53	1000	0.7895	0.5818
0.4584	15.79	1500	0.7198	0.5211
0.3096	21.05	2000	0.7983	0.5118
0.2165	26.32	2500	0.7893	0.4745
0.163	31.58	3000	0.8779	0.4589
0.1144	36.84	3500	0.9256	0.4540
0.0886	42.11	4000	0.9184	0.4530
0.0668	47.37	4500	0.9634	0.4398