wav2vec2-base-checkpoint-5开源语音识别模型

Wav2vec2 Base Checkpoint 5

由 jiobiala24 开发

该模型是基于wav2vec2-base-checkpoint-4在common_voice数据集上微调的语音识别模型，支持自动语音识别(ASR)任务。

下载量 16

发布时间 : 3/2/2022

模型简介

基于wav2vec2架构的语音识别模型，在common_voice数据集上微调，用于将语音转换为文本。

高效微调

基于预训练的wav2vec2模型进行微调，提高了在common_voice数据集上的识别准确率

低词错误率

在评估集上取得了0.3354的词错误率(WER)，表现良好

优化训练

采用线性学习率调度和Adam优化器进行30轮训练，确保模型收敛

语音识别

音频转文本

语音转录

语音转文字服务

将语音内容自动转换为文字记录

词错误率0.3354

辅助工具

听障辅助

实时将语音转换为文字，帮助听障人士理解语音内容

训练损失	轮数	步数	验证损失	字错率（Wer）
0.3947	1.96	1000	0.5749	0.3597
0.2856	3.93	2000	0.6212	0.3479
0.221	5.89	3000	0.6280	0.3502
0.1755	7.86	4000	0.6517	0.3526
0.1452	9.82	5000	0.7115	0.3481
0.1256	11.79	6000	0.7687	0.3509
0.1117	13.75	7000	0.7785	0.3490
0.0983	15.72	8000	0.8115	0.3442
0.0877	17.68	9000	0.8290	0.3429
0.0799	19.65	10000	0.8517	0.3412
0.0733	21.61	11000	0.9370	0.3448
0.066	23.58	12000	0.9157	0.3410
0.0623	25.54	13000	0.9673	0.3377
0.0583	27.5	14000	0.9804	0.3348
0.0544	29.47	15000	0.9849	0.3354