语言:
- 捷克语
许可证: apache-2.0
标签:
- 自动语音识别
- 捷克语
- 训练生成
- hf-asr排行榜
- 对话模型
- mozilla-foundation/common_voice_8_0
- 强健语音事件
数据集:
- mozilla-foundation/common_voice_8_0
模型索引:
- 名称: sammy786/wav2vec2-xlsr-czech
结果:
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: Common Voice 8
类型: mozilla-foundation/common_voice_8_0
参数: cs
指标:
- 名称: 测试WER
类型: wer
值: 11.22
- 名称: 测试CER
类型: cer
值: 2.52
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: Robust Speech Event - 开发数据
类型: speech-recognition-community-v2/dev_data
参数: cs
指标:
- 名称: 测试WER
类型: wer
值: 97.02
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: Robust Speech Event - 测试数据
类型: speech-recognition-community-v2/eval_data
参数: cs
指标:
- 名称: 测试WER
类型: wer
值: 69.7
sammy786/wav2vec2-xlsr-czech
该模型是基于facebook/wav2vec2-xls-r-1b在MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - cs数据集上微调得到的版本。在评估集(即训练数据集的10%与其他及开发数据集合并)上取得了以下结果:
模型描述
"facebook/wav2vec2-xls-r-1b"经过微调。
预期用途与限制
需要更多信息
训练与评估数据
训练数据 -
Common voice芬兰语train.tsv, dev.tsv, invalidated.tsv和other.tsv
训练过程
为创建训练数据集,所有可能的数据集被合并,并采用90-10分割。
训练超参数
训练过程中使用了以下超参数:
- 学习率: 0.000045637994662983496
- 训练批次大小: 8
- 评估批次大小: 16
- 随机种子: 13
- 梯度累积步数: 4
- 总训练批次大小: 32
- 优化器: Adam,beta=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型: cosine_with_restarts
- 学习率预热步数: 500
- 训练轮数: 7
- 混合精度训练: Native AMP
训练结果
步数 |
训练损失 |
验证损失 |
WER |
200 |
6.654600 |
3.329486 |
1.000000 |
400 |
1.700600 |
0.317266 |
0.409446 |
600 |
0.767400 |
0.211371 |
0.313981 |
800 |
0.718600 |
0.167771 |
0.280676 |
1000 |
0.661700 |
0.142229 |
0.258938 |
1200 |
0.594400 |
0.137321 |
0.256275 |
1400 |
0.583900 |
0.132922 |
0.248418 |
1600 |
0.565100 |
0.117214 |
0.238640 |
1800 |
0.369600 |
0.116954 |
0.238291 |
2000 |
0.292800 |
0.109973 |
0.227509 |
2200 |
0.255400 |
0.104955 |
0.228120 |
2400 |
0.266800 |
0.097268 |
0.220525 |
2600 |
0.232700 |
0.096055 |
0.213584 |
2800 |
0.213700 |
0.097770 |
0.218866 |
3000 |
0.209900 |
0.091633 |
0.210485 |
3200 |
0.196800 |
0.090342 |
0.208739 |
3400 |
0.200500 |
0.082326 |
0.204767 |
3600 |
0.176800 |
0.085491 |
0.204068 |
3800 |
0.170000 |
0.081289 |
0.201231 |
4000 |
0.166200 |
0.080762 |
0.200227 |
4200 |
0.161700 |
0.076671 |
0.198001 |
4400 |
0.147000 |
0.077383 |
0.196997 |
4600 |
0.141900 |
0.076057 |
0.195862 |
4800 |
0.144800 |
0.074612 |
0.195120 |
5000 |
0.138900 |
0.073138 |
0.193985 |
5200 |
0.143900 |
0.072802 |
0.192894 |
5400 |
0.131100 |
0.072764 |
0.193723 |
5600 |
0.137000 |
0.072697 |
0.193679 |
5800 |
0.133300 |
0.072651 |
0.193286 |
框架版本
- Transformers 4.16.0.dev0
- Pytorch 1.10.0+cu102
- Datasets 1.17.1.dev0
- Tokenizers 0.10.3
评估命令
- 在
mozilla-foundation/common_voice_8_0
的test
分割上进行评估
python eval.py --model_id sammy786/wav2vec2-xlsr-czech --dataset mozilla-foundation/common_voice_8_0 --config cs --split test