wav2vec2-base-checkpoint-9开源语音识别模型 - 精准识别，低词错误率超实用

Wav2vec2 Base Checkpoint 9

由 jiobiala24 开发

该模型是基于wav2vec2-base-checkpoint-8在common_voice数据集上微调的语音识别模型，在评估集上取得了0.3258的词错误率。

下载量 16

发布时间 : 3/2/2022

模型简介

这是一个基于wav2vec2架构的语音识别模型，经过在common_voice数据集上的微调，能够将语音转换为文本。

低词错误率

在评估集上取得了0.3258的词错误率，表现良好。

基于wav2vec2架构

采用先进的wav2vec2架构，能够有效学习语音特征。

在common_voice数据集上微调

使用common_voice数据集进行微调，提高了模型的泛化能力。

语音识别

自动语音转文本

语音转录

语音备忘录转录

将语音备忘录自动转换为文本

准确率约67.42%（基于词错误率推算）

无障碍应用

实时字幕生成

为听力障碍人士提供实时字幕

训练损失	轮数	步数	验证损失	字错率（Wer）
0.2783	1.58	1000	0.5610	0.3359
0.2251	3.16	2000	0.5941	0.3374
0.173	4.74	3000	0.6026	0.3472
0.1475	6.32	4000	0.6750	0.3482
0.1246	7.9	5000	0.6673	0.3414
0.1081	9.48	6000	0.7072	0.3409
0.1006	11.06	7000	0.7413	0.3392
0.0879	12.64	8000	0.7831	0.3394
0.0821	14.22	9000	0.7371	0.3333
0.0751	15.8	10000	0.8321	0.3445
0.0671	17.38	11000	0.8362	0.3357
0.0646	18.96	12000	0.8709	0.3367
0.0595	20.54	13000	0.8352	0.3321
0.0564	22.12	14000	0.8854	0.3323
0.052	23.7	15000	0.9031	0.3315
0.0485	25.28	16000	0.9171	0.3278
0.046	26.86	17000	0.9390	0.3254
0.0438	28.44	18000	0.9203	0.3258