wav2vec2-base-timit-demo-google-colab开源语音识别模型

Wav2vec2 Base Timit Demo Google Colab

由 Nancyzzz 开发

基于facebook/wav2vec2-base模型在TIMIT数据集上微调的语音识别模型

下载量 103

发布时间 : 6/29/2022

模型简介

该模型是用于英语语音识别的wav2vec2-base微调版本，在TIMIT数据集上训练，能够将英语语音转换为文本

高效语音识别

基于wav2vec2架构，提供高效的英语语音识别能力

微调优化

在TIMIT数据集上进行微调，优化了语音识别性能

轻量级模型

基于wav2vec2-base版本，相对轻量且易于部署

英语语音识别

语音转文本

语音转录

会议记录

将英语会议录音自动转换为文字记录

词错误率约34%

语音笔记

将英语语音笔记转换为可编辑文本

本模型是 facebook/wav2vec2-base 在无特定数据集上的微调版本。它在评估集上取得了以下结果：

本模型是在特定训练流程下对基础模型进行微调得到的，以下为您详细介绍训练过程及相关信息。

更多信息待补充。

更多信息待补充。

更多信息待补充。

训练过程中使用了以下超参数：

训练损失	轮数	步数	验证损失	字错率（Wer）
3.4884	1.0	500	1.6139	1.0293
0.8373	2.01	1000	0.5286	0.5266
0.4394	3.01	1500	0.4933	0.4678
0.2974	4.02	2000	0.4159	0.4268
0.2268	5.02	2500	0.4288	0.4074
0.1901	6.02	3000	0.4407	0.3852
0.1627	7.03	3500	0.4599	0.3849
0.1397	8.03	4000	0.4330	0.3803
0.1342	9.04	4500	0.4661	0.3785
0.1165	10.04	5000	0.4518	0.3745
0.1	11.04	5500	0.4714	0.3899
0.0881	12.05	6000	0.4985	0.3848
0.0794	13.05	6500	0.5074	0.3672
0.0707	14.06	7000	0.5692	0.3681
0.0669	15.06	7500	0.4722	0.3814
0.0589	16.06	8000	0.5738	0.3784
0.0562	17.07	8500	0.5183	0.3696
0.0578	18.07	9000	0.5473	0.3841
0.0473	19.08	9500	0.4918	0.3655
0.0411	20.08	10000	0.5258	0.3517
0.0419	21.08	10500	0.5256	0.3501
0.0348	22.09	11000	0.5511	0.3597
0.0328	23.09	11500	0.5054	0.3560
0.0314	24.1	12000	0.5327	0.3537
0.0296	25.1	12500	0.5142	0.3446
0.0251	26.1	13000	0.5155	0.3411
0.0249	27.11	13500	0.5344	0.3414
0.0225	28.11	14000	0.5193	0.3408
0.0226	29.12	14500	0.5253	0.3406