wav2vec2-base-vios-commonvoice-1开源语音识别模型 - 免费部署支持自动语音识别

首页

Wav2vec2 Base Vios Commonvoice 1

由 tclong 开发

该模型是基于facebook/wav2vec2-xls-r-300m在Common Voice数据集上微调的语音识别模型，支持自动语音识别任务。

语音识别

Transformers

开源协议:Apache-2.0 #语音识别 #低词错误率 #多语言支持

下载量 21

发布时间 : 6/10/2022

模型简介

这是一个基于wav2vec2架构的语音识别模型，经过微调后可用于将语音转换为文本。

模型特点

基于wav2vec2架构

采用先进的wav2vec2架构，提供高质量的语音识别能力

微调优化

在Common Voice数据集上进行微调，优化了识别性能

低词错误率

在评估集上取得了0.3621的词错误率(WER)

模型能力

语音识别

音频转文本

使用案例

语音转录

语音转文字服务

将语音内容转换为文字记录

词错误率0.3621

辅助技术

实时字幕生成

为视频或直播内容生成实时字幕

🚀 wav2vec2-base-vios-commonvoice-1

本模型是 facebook/wav2vec2-xls-r-300m 在 None 数据集上的微调版本。它在评估集上取得了以下成果：

损失值：0.8913
字错率（Wer）：0.3621

📚 详细文档

训练和评估数据

更多信息待补充。

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率：5e - 05
训练批次大小：8
评估批次大小：8
随机种子：42
梯度累积步数：2
总训练批次大小：16
优化器：Adam，β=(0.9, 0.999)，ε = 1e - 08
学习率调度器类型：线性
学习率调度器热身步数：1000
训练轮数：30
混合精度训练：原生自动混合精度（Native AMP）

训练结果

训练损失	轮数	步数	验证损失	字错率（Wer）
3.4706	0.55	500	3.4725	1.0
3.202	1.1	1000	2.7555	1.0008
1.0507	1.66	1500	1.0481	0.6196
0.7325	2.21	2000	0.8120	0.4958
0.599	2.76	2500	0.7035	0.4447
0.5224	3.31	3000	0.6761	0.4078
0.4844	3.86	3500	0.6688	0.4011
0.4234	4.42	4000	0.6080	0.3729
0.4237	4.97	4500	0.5953	0.3556
0.3986	5.52	5000	0.6054	0.3478
0.3554	6.07	5500	0.6193	0.3479
0.3446	6.62	6000	0.5809	0.3302
0.3104	7.17	6500	0.5713	0.3283
0.3166	7.73	7000	0.5593	0.3133
0.2938	8.28	7500	0.5645	0.3081
0.3061	8.83	8000	0.5508	0.3020
0.2986	9.38	8500	0.5462	0.3024
0.2939	9.93	9000	0.5544	0.3028
0.2633	10.49	9500	0.5496	0.3024
0.2683	11.04	10000	0.5439	0.2946
0.2714	11.59	10500	0.5524	0.2947
0.2354	12.14	11000	0.5267	0.2918
0.2488	12.69	11500	0.5728	0.2938
0.2479	13.25	12000	0.5802	0.2951
0.245	13.8	12500	0.5571	0.2890
0.2422	14.35	13000	0.5531	0.2871
0.2369	14.9	13500	0.5453	0.2860
0.2345	15.45	14000	0.5452	0.2847
0.2507	16.0	14500	0.5536	0.2884
0.2454	16.56	15000	0.5577	0.2871
0.2729	17.11	15500	0.6019	0.2931
0.2743	17.66	16000	0.5619	0.2905
0.3031	18.21	16500	0.6401	0.3006
0.315	18.76	17000	0.6044	0.2990
0.4025	19.32	17500	0.6739	0.3304
0.4915	19.87	18000	0.7267	0.3472
0.5539	20.42	18500	0.8078	0.3483
0.7138	20.97	19000	0.9362	0.3765
0.5766	21.52	19500	0.7921	0.3392
0.688	22.08	20000	0.8833	0.3693
0.6964	22.63	20500	0.9137	0.3469
0.7389	23.18	21000	0.9379	0.3460
0.7851	23.73	21500	1.0438	0.3653
0.7619	24.28	22000	0.9313	0.3873
0.7175	24.83	22500	0.8668	0.3789
0.6842	25.39	23000	0.8243	0.3761
0.6941	25.94	23500	0.8557	0.3804
0.7167	26.49	24000	0.8618	0.3875
0.721	27.04	24500	0.8686	0.3764
0.6949	27.59	25000	0.8773	0.3690
0.727	28.15	25500	0.8769	0.3666
0.7363	28.7	26000	0.8867	0.3634
0.7157	29.25	26500	0.8895	0.3626
0.7385	29.8	27000	0.8913	0.3621