wav2vec2-base-timit-demo-google-colab开源语音识别模型

首页

Wav2vec2 Base Timit Demo Google Colab

由 atgarcia 开发

基于facebook/wav2vec2-base模型在TIMIT数据集上微调的语音识别模型，适用于英语语音转文本任务。

语音识别

Transformers

开源协议:Apache-2.0 #语音识别优化 #低词错误率 #TIMIT数据集

下载量 19

发布时间 : 5/17/2022

模型简介

该模型是wav2vec2-base的微调版本，专门用于英语语音识别任务，在TIMIT数据集上表现出色。

模型特点

高效微调

基于预训练的wav2vec2-base模型进行微调，显著提升了在TIMIT数据集上的识别准确率。

低词错误率

在评估集上达到0.333的词错误率(WER)，表现优异。

轻量级

基于wav2vec2-base架构，模型规模适中，适合资源有限的环境部署。

模型能力

英语语音识别

实时语音转文本

高准确率转录

使用案例

语音转录

会议记录

将英语会议录音自动转录为文本

准确率达到66.7% (WER=0.333)

语音助手

作为语音助手的基础识别引擎

教育

发音评估

用于英语学习者的发音准确度评估

🚀 wav2vec2-base-timit-demo-google-colab

本模型是在None数据集上对facebook/wav2vec2-base进行微调后的版本。它在评估集上取得了以下结果：

损失值：0.5255
字错率（Wer）：0.3330

🚀 快速开始

本模型是基于facebook/wav2vec2-base在特定数据集上微调而来，可用于相关语音处理任务。

📚 详细文档

模型描述

更多信息待补充。

预期用途与限制

更多信息待补充。

训练和评估数据

更多信息待补充。

训练过程

训练超参数

训练期间使用了以下超参数：

学习率：0.0001
训练批次大小：8
评估批次大小：8
随机种子：42
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
学习率调度器类型：线性
学习率调度器热身步数：1000
训练轮数：30
混合精度训练：原生自动混合精度（Native AMP）

训练结果

训练损失	轮数	步数	验证损失	字错率（Wer）
3.5942	1.0	500	2.3849	1.0011
0.9765	2.01	1000	0.5907	0.5202
0.4424	3.01	1500	0.4547	0.4661
0.3008	4.02	2000	0.4194	0.4228
0.2316	5.02	2500	0.3933	0.4099
0.1921	6.02	3000	0.4532	0.3965
0.1561	7.03	3500	0.4315	0.3777
0.1378	8.03	4000	0.4463	0.3847
0.1222	9.04	4500	0.4402	0.3784
0.1076	10.04	5000	0.4253	0.3735
0.0924	11.04	5500	0.4844	0.3732
0.0866	12.05	6000	0.4758	0.3646
0.086	13.05	6500	0.6395	0.4594
0.0763	14.06	7000	0.4951	0.3647
0.0684	15.06	7500	0.4870	0.3577
0.0616	16.06	8000	0.5442	0.3591
0.0594	17.07	8500	0.5305	0.3606
0.0613	18.07	9000	0.5434	0.3546
0.0473	19.08	9500	0.4818	0.3532
0.0463	20.08	10000	0.5086	0.3514
0.042	21.08	10500	0.5017	0.3484
0.0365	22.09	11000	0.5129	0.3536
0.0336	23.09	11500	0.5411	0.3433
0.0325	24.1	12000	0.5307	0.3424
0.0282	25.1	12500	0.5261	0.3404
0.0245	26.1	13000	0.5306	0.3388
0.0257	27.11	13500	0.5242	0.3369
0.0234	28.11	14000	0.5216	0.3359
0.0221	29.12	14500	0.5255	0.3330