wav2vec2-base-timit-demo-google-colab开源语音识别模型

首页

Wav2vec2 Base Timit Demo Google Colab

由 pannaga 开发

该模型是基于facebook/wav2vec2-base在TIMIT数据集上微调的语音识别模型，在Google Colab环境下训练完成。

语音识别

Transformers

开源协议:Apache-2.0 #语音识别 #TIMIT数据集 #低词错误率

下载量 16

发布时间 : 6/30/2022

模型简介

一个用于英语语音识别的微调模型，基于wav2vec2架构，适用于语音转文本任务。

模型特点

高效微调

在TIMIT数据集上微调，显著提升了原始wav2vec2-base模型的语音识别性能

Google Colab兼容

模型训练过程针对Google Colab环境优化，便于快速部署和实验

相对轻量级

基于wav2vec2-base架构，相比更大模型更适合资源有限的环境

模型能力

英语语音识别

语音转文本

音频特征提取

使用案例

语音处理

语音转录

将英语语音内容转换为文本

词错误率(WER)为0.3437

语音指令识别

识别简单的语音命令和指令

🚀 wav2vec2-base-timit-demo-google-colab

本模型是在None数据集上对facebook/wav2vec2-base进行微调后的版本。它在评估集上取得了以下结果：

损失值：0.5480
字错率（Wer）：0.3437

🚀 快速开始

本部分暂无具体内容，可根据实际使用场景补充如何使用该模型的快速指引。

📄 许可证

本模型采用Apache-2.0许可证。

📚 详细文档

模型描述

更多信息待补充。

预期用途和限制

更多信息待补充。

训练和评估数据

更多信息待补充。

训练过程

训练超参数

训练期间使用了以下超参数：

学习率：0.0001
训练批次大小：8
评估批次大小：8
随机种子：42
优化器：Adam（β1=0.9，β2=0.999，ε=1e-08）
学习率调度器类型：线性
学习率调度器热身步数：1000
训练轮数：30
混合精度训练：原生自动混合精度（Native AMP）

训练结果

训练损失	轮数	步数	验证损失	字错率（Wer）
3.5237	1.0	500	1.7277	0.9752
0.8339	2.01	1000	0.5413	0.5316
0.4277	3.01	1500	0.4732	0.4754
0.2907	4.02	2000	0.4571	0.4476
0.2254	5.02	2500	0.4611	0.4105
0.1911	6.02	3000	0.4448	0.4072
0.1595	7.03	3500	0.4517	0.3843
0.1377	8.03	4000	0.4551	0.3881
0.1197	9.04	4500	0.4853	0.3772
0.1049	10.04	5000	0.4617	0.3707
0.097	11.04	5500	0.4633	0.3622
0.0872	12.05	6000	0.4635	0.3690
0.0797	13.05	6500	0.5196	0.3749
0.0731	14.06	7000	0.5029	0.3639
0.0667	15.06	7500	0.5053	0.3614
0.0618	16.06	8000	0.5627	0.3638
0.0562	17.07	8500	0.5484	0.3577
0.0567	18.07	9000	0.5163	0.3560
0.0452	19.08	9500	0.5012	0.3538
0.044	20.08	10000	0.4931	0.3534
0.0424	21.08	10500	0.5147	0.3519
0.0356	22.09	11000	0.5540	0.3521
0.0322	23.09	11500	0.5565	0.3509
0.0333	24.1	12000	0.5315	0.3428
0.0281	25.1	12500	0.5284	0.3425
0.0261	26.1	13000	0.5101	0.3446
0.0256	27.11	13500	0.5432	0.3415
0.0229	28.11	14000	0.5484	0.3446
0.0212	29.12	14500	0.5480	0.3437