wav2vec2-base-timit开源语音识别模型 - 免费部署实现英语语音转文字

首页

Wav2vec2 Base Timit Demo Google Colab

由 dasolj 开发

基于facebook/wav2vec2-base在TIMIT数据集上微调的语音识别模型，专注于英语语音转文字任务

语音识别

Transformers

开源协议:Apache-2.0 #语音识别 #TIMIT数据集 #低词错误率

下载量 127

发布时间 : 6/27/2022

模型简介

该模型是wav2vec2-base的微调版本，专门用于英语语音识别任务，在TIMIT数据集上训练，能够将英语语音转换为文本

模型特点

基于wav2vec2-base微调

在强大的wav2vec2-base基础上针对特定任务优化

低词错误率

在评估集上达到0.3424的词错误率(WER)

端到端语音识别

直接将原始音频输入转换为文本输出

模型能力

英语语音识别

音频转文字

自动语音转录

使用案例

语音转录

会议记录自动化

将英语会议录音自动转换为文字记录

词错误率约34%

语音笔记转换

将英语语音笔记转换为可编辑文本

辅助技术

实时字幕生成

为英语视频内容生成实时字幕

🚀 wav2vec2-base-timit-demo-google-colab

该模型是在None数据集上对 facebook/wav2vec2-base 进行微调后的版本。它在评估集上取得了以下结果：

损失值：0.5501
词错误率（Wer）：0.3424

🚀 快速开始

此模型是基于特定数据集对基础模型微调得到，可用于语音相关任务评估，如语音识别等。

📚 详细文档

模型描述

更多信息待补充。

预期用途与限制

更多信息待补充。

训练和评估数据

更多信息待补充。

🔧 技术细节

训练过程

训练超参数

训练期间使用了以下超参数：

学习率：0.0001
训练批次大小：8
评估批次大小：8
随机种子：42
优化器：Adam（β1=0.9，β2=0.999，ε=1e-08）
学习率调度器类型：线性
学习率调度器热身步数：1000
训练轮数：30
混合精度训练：原生自动混合精度（Native AMP）

训练结果

训练损失	轮数	步数	验证损失	词错误率（Wer）
3.5448	1.0	500	2.5044	1.0
1.0167	2.01	1000	0.5435	0.5278
0.4453	3.01	1500	0.4450	0.4534
0.3	4.02	2000	0.4401	0.4245
0.2304	5.02	2500	0.4146	0.4022
0.1889	6.02	3000	0.4241	0.3927
0.1573	7.03	3500	0.4545	0.3878
0.1363	8.03	4000	0.4936	0.3940
0.1213	9.04	4500	0.4964	0.3806
0.108	10.04	5000	0.4931	0.3826
0.0982	11.04	5500	0.5373	0.3778
0.0883	12.05	6000	0.4978	0.3733
0.0835	13.05	6500	0.5189	0.3728
0.0748	14.06	7000	0.4608	0.3692
0.068	15.06	7500	0.4827	0.3608
0.0596	16.06	8000	0.5022	0.3661
0.056	17.07	8500	0.5482	0.3646
0.0565	18.07	9000	0.5158	0.3573
0.0487	19.08	9500	0.4910	0.3513
0.0444	20.08	10000	0.5771	0.3580
0.045	21.08	10500	0.5160	0.3539
0.0363	22.09	11000	0.5367	0.3503
0.0313	23.09	11500	0.5773	0.3500
0.0329	24.1	12000	0.5683	0.3508
0.0297	25.1	12500	0.5355	0.3464
0.0272	26.1	13000	0.5317	0.3450
0.0256	27.11	13500	0.5602	0.3443
0.0242	28.11	14000	0.5586	0.3419
0.0239	29.12	14500	0.5501	0.3424