语言:
- gn
许可证: apache-2.0
标签:
- 自动语音识别
- mozilla-foundation/common_voice_8_0
- 训练生成
- gn
- 鲁棒语音事件
- hf-asr排行榜
数据集:
- mozilla-foundation/common_voice_8_0
模型索引:
- 名称: wav2vec2-large-xls-r-300m-gn-k1
结果:
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: Common Voice 8
类型: mozilla-foundation/common_voice_8_0
参数: gn
指标:
- 名称: 测试WER
类型: wer
值: 0.711890243902439
- 名称: 测试CER
类型: cer
值: 0.13311897106109324
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: 鲁棒语音事件 - 开发数据
类型: speech-recognition-community-v2/dev_data
参数: gn
指标:
- 名称: 测试WER
类型: wer
值: 不适用
- 名称: 测试CER
类型: cer
值: 不适用
wav2vec2-large-xls-r-300m-gn-k1
该模型是在MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - GN数据集上对facebook/wav2vec2-xls-r-300m进行微调的版本。
在评估集上取得了以下结果:
- 损失: 0.9220
- 词错误率(WER): 0.6631
评估命令
- 在mozilla-foundation/common_voice_8_0的测试集上评估:
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-gn-k1 --dataset mozilla-foundation/common_voice_8_0 --config gn --split test --log_outputs
- 在speech-recognition-community-v2/dev_data上评估:
不适用
训练超参数
训练过程中使用了以下超参数:
- 学习率: 0.00018
- 训练批次大小: 16
- 评估批次大小: 8
- 随机种子: 42
- 梯度累积步数: 2
- 总训练批次大小: 32
- 优化器: Adam,参数为betas=(0.9,0.999)和epsilon=1e-08
- 学习率调度器类型: 线性
- 学习率预热步数: 600
- 训练轮数: 200
- 混合精度训练: 原生AMP
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
词错误率(WER) |
15.9402 |
8.32 |
100 |
6.9185 |
1.0 |
4.6367 |
16.64 |
200 |
3.7416 |
1.0 |
3.4337 |
24.96 |
300 |
3.2581 |
1.0 |
3.2307 |
33.32 |
400 |
2.8008 |
1.0 |
1.3182 |
41.64 |
500 |
0.8359 |
0.8171 |
0.409 |
49.96 |
600 |
0.8470 |
0.8323 |
0.2573 |
58.32 |
700 |
0.7823 |
0.7576 |
0.1969 |
66.64 |
800 |
0.8306 |
0.7424 |
0.1469 |
74.96 |
900 |
0.9225 |
0.7713 |
0.1172 |
83.32 |
1000 |
0.7903 |
0.6951 |
0.1017 |
91.64 |
1100 |
0.8519 |
0.6921 |
0.0851 |
99.96 |
1200 |
0.8129 |
0.6646 |
0.071 |
108.32 |
1300 |
0.8614 |
0.7043 |
0.061 |
116.64 |
1400 |
0.8414 |
0.6921 |
0.0552 |
124.96 |
1500 |
0.8649 |
0.6905 |
0.0465 |
133.32 |
1600 |
0.8575 |
0.6646 |
0.0381 |
141.64 |
1700 |
0.8802 |
0.6723 |
0.0338 |
149.96 |
1800 |
0.8731 |
0.6845 |
0.0306 |
158.32 |
1900 |
0.9003 |
0.6585 |
0.0236 |
166.64 |
2000 |
0.9408 |
0.6616 |
0.021 |
174.96 |
2100 |
0.9353 |
0.6723 |
0.0212 |
183.32 |
2200 |
0.9269 |
0.6570 |
0.0191 |
191.64 |
2300 |
0.9277 |
0.6662 |
0.0161 |
199.96 |
2400 |
0.9220 |
0.6631 |
框架版本
- Transformers 4.16.2
- Pytorch 1.10.0+cu111
- Datasets 1.18.3
- Tokenizers 0.11.0