wav2vec2-large-xls-r-300m-gn-k1开源模型 - 支持瓜拉尼语的自动语音识别

首页

Wav2vec2 Large Xls R 300m Gn K1

由 DrishtiSharma 开发

该模型是基于Facebook的wav2vec2-xls-r-300m模型，在MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - GN数据集上进行微调的自动语音识别模型，支持瓜拉尼语(gn)。

语音识别

Transformers

其他开源协议:Apache-2.0 #瓜拉尼语语音识别 #低资源语言ASR #XLS-R架构

下载量 22

发布时间 : 3/2/2022

模型简介

这是一个用于瓜拉尼语(gn)自动语音识别的模型，基于wav2vec2-xls-r-300m架构微调而成，适用于语音转文本任务。

模型特点

多语言支持

专门针对瓜拉尼语优化的语音识别能力

大规模预训练

基于3亿参数的wav2vec2-xls-r-300m模型微调

高性能

在Common Voice 8测试集上达到0.6631的词错误率(WER)

模型能力

语音转文本

瓜拉尼语语音识别

自动语音识别

使用案例

语音转录

瓜拉尼语语音转录

将瓜拉尼语语音转换为文本

在测试集上达到0.6631的词错误率

语音辅助技术

语音控制应用

为瓜拉尼语用户开发语音控制界面

🚀 wav2vec2-large-xls-r-300m-gn-k1

此模型是基于MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - GN数据集，对facebook/wav2vec2 - xls - r - 300m进行微调后的版本。它在评估集上取得了以下结果，可用于自动语音识别任务，为语音识别领域提供了有效的解决方案。

📚 详细文档

模型信息

属性	详情
模型类型	基于wav2vec2 - large - xls - r - 300m微调的自动语音识别模型
训练数据	mozilla - foundation/common_voice_8_0

评估结果

该模型在评估集上取得了以下结果：

损失值（Loss）：0.9220
词错误率（Wer）：0.6631

评估命令

在mozilla - foundation/common_voice_8_0的测试分割集上进行评估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-gn-k1 --dataset mozilla-foundation/common_voice_8_0 --config gn --split test --log_outputs

在speech - recognition - community - v2/dev_data上进行评估暂无可用评估命令

训练超参数

训练过程中使用了以下超参数：

学习率（learning_rate）：0.00018
训练批次大小（train_batch_size）：16
评估批次大小（eval_batch_size）：8
随机种子（seed）：42
梯度累积步数（gradient_accumulation_steps）：2
总训练批次大小（total_train_batch_size）：32
优化器（optimizer）：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型（lr_scheduler_type）：线性
学习率调度器热身步数（lr_scheduler_warmup_steps）：600
训练轮数（num_epochs）：200
混合精度训练（mixed_precision_training）：Native AMP

训练结果

训练损失	轮数	步数	验证损失	词错误率（Wer）
15.9402	8.32	100	6.9185	1.0
4.6367	16.64	200	3.7416	1.0
3.4337	24.96	300	3.2581	1.0
3.2307	33.32	400	2.8008	1.0
1.3182	41.64	500	0.8359	0.8171
0.409	49.96	600	0.8470	0.8323
0.2573	58.32	700	0.7823	0.7576
0.1969	66.64	800	0.8306	0.7424
0.1469	74.96	900	0.9225	0.7713
0.1172	83.32	1000	0.7903	0.6951
0.1017	91.64	1100	0.8519	0.6921
0.0851	99.96	1200	0.8129	0.6646
0.071	108.32	1300	0.8614	0.7043
0.061	116.64	1400	0.8414	0.6921
0.0552	124.96	1500	0.8649	0.6905
0.0465	133.32	1600	0.8575	0.6646
0.0381	141.64	1700	0.8802	0.6723
0.0338	149.96	1800	0.8731	0.6845
0.0306	158.32	1900	0.9003	0.6585
0.0236	166.64	2000	0.9408	0.6616
0.021	174.96	2100	0.9353	0.6723
0.0212	183.32	2200	0.9269	0.6570
0.0191	191.64	2300	0.9277	0.6662
0.0161	199.96	2400	0.9220	0.6631