语言:
- kk
许可证: apache-2.0
标签:
- 自动语音识别
- mozilla-foundation/common_voice_8_0
- 训练生成
- kk
- 鲁棒语音事件
- 对话模型
- hf-asr排行榜
数据集:
- mozilla-foundation/common_voice_8_0
模型索引:
- 名称: wav2vec2-large-xls-r-300m-kk-with-LM
结果:
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: Common Voice 8
类型: mozilla-foundation/common_voice_8_0
参数: ru
指标:
- 名称: 测试WER
类型: wer
值: 0.4355
- 名称: 测试CER
类型: cer
值: 0.10469915859660263
- 名称: 测试WER (+LM)
类型: wer
值: 0.417
- 名称: 测试CER (+LM)
类型: cer
值: 0.10319098269566598
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: 鲁棒语音事件 - 开发数据
类型: speech-recognition-community-v2/dev_data
参数: kk
指标:
- 名称: 测试WER
类型: wer
值: 不适用
- 名称: 测试CER
类型: cer
值: 不适用
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: Common Voice 8.0
类型: mozilla-foundation/common_voice_8_0
参数: kk
指标:
- 名称: 测试WER
类型: wer
值: 41.7
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: 鲁棒语音事件 - 测试数据
类型: speech-recognition-community-v2/eval_data
参数: kk
指标:
- 名称: 测试WER
类型: wer
值: 67.09
该模型是在MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - KK数据集上对facebook/wav2vec2-xls-r-300m进行微调的版本。
在评估集上取得了以下结果:
- 损失: 0.7149
- 词错误率(WER): 0.451
评估命令
- 在mozilla-foundation/common_voice_8_0的测试集上评估
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-kk-with-LM --dataset mozilla-foundation/common_voice_8_0 --config kk --split test --log_outputs
- 在speech-recognition-community-v2/dev_data上评估
哈萨克语在speech-recognition-community-v2/dev_data中不可用
训练超参数
训练过程中使用了以下超参数:
- 学习率: 0.000222
- 训练批次大小: 16
- 评估批次大小: 8
- 随机种子: 42
- 梯度累积步数: 2
- 总训练批次大小: 32
- 优化器: Adam,参数为betas=(0.9,0.999)和epsilon=1e-08
- 学习率调度器类型: 线性
- 学习率预热步数: 1000
- 训练轮数: 150.0
- 混合精度训练: 原生AMP
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
词错误率(WER) |
9.6799 |
9.09 |
200 |
3.6119 |
1.0 |
3.1332 |
18.18 |
400 |
2.5352 |
1.005 |
1.0465 |
27.27 |
600 |
0.6169 |
0.682 |
0.3452 |
36.36 |
800 |
0.6572 |
0.607 |
0.2575 |
45.44 |
1000 |
0.6527 |
0.578 |
0.2088 |
54.53 |
1200 |
0.6828 |
0.551 |
0.158 |
63.62 |
1400 |
0.7074 |
0.5575 |
0.1309 |
72.71 |
1600 |
0.6523 |
0.5595 |
0.1074 |
81.8 |
1800 |
0.7262 |
0.5415 |
0.087 |
90.89 |
2000 |
0.7199 |
0.521 |
0.0711 |
99.98 |
2200 |
0.7113 |
0.523 |
0.0601 |
109.09 |
2400 |
0.6863 |
0.496 |
0.0451 |
118.18 |
2600 |
0.6998 |
0.483 |
0.0378 |
127.27 |
2800 |
0.6971 |
0.4615 |
0.0319 |
136.36 |
3000 |
0.7119 |
0.4475 |
0.0305 |
145.44 |
3200 |
0.7181 |
0.459 |
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.2+cu102
- Datasets 1.18.2.dev0
- Tokenizers 0.11.0
评估命令
!python eval.py
--model_id DrishtiSharma/wav2vec2-xls-r-300m-kk-n2
--dataset mozilla-foundation/common_voice_8_0 --config kk --split test --log_outputs