语言:
- 库尔德语(中部方言)
许可证: Apache-2.0
标签:
- 自动语音识别
- mozilla-foundation/common_voice_8_0
- 训练生成
- 库尔德语
- 鲁棒语音事件
- 对话模型
- hf-asr排行榜
数据集:
- mozilla-foundation/common_voice_8_0
模型索引:
- 名称: Akashpb13/Central_kurdish_xlsr
结果:
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: Common Voice 8
类型: mozilla-foundation/common_voice_8_0
参数: ckb
指标:
- 名称: 测试WER
类型: wer
值: 0.36754389884276845
- 名称: 测试CER
类型: cer
值: 0.07827896768334217
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: 鲁棒语音事件 - 开发数据
类型: speech-recognition-community-v2/dev_data
参数: ckb
指标:
- 名称: 测试WER
类型: wer
值: 0.36754389884276845
- 名称: 测试CER
类型: cer
值: 0.07827896768334217
Akashpb13/Central_kurdish_xlsr
该模型是基于facebook/wav2vec2-xls-r-300m在MOZILLA-FOUNDATION/COMMON_VOICE_7_0 - hu数据集上微调得到的版本。在评估集(合并了训练数据集的10%、无效数据、报告数据、其他数据和开发数据集)上取得了以下结果:
- 损失: 0.348580
- 词错误率(WER): 0.401147
模型描述
对"facebook/wav2vec2-xls-r-300m"进行了微调。
预期用途与限制
需要更多信息
训练与评估数据
训练数据 -
Common Voice的中部库尔德语train.tsv、dev.tsv、invalidated.tsv、reported.tsv和other.tsv文件
仅考虑那些赞成票多于反对票的数据点,并在拼接Common Voice 7.0提供的所有数据集后去除了重复项。
训练过程
创建训练数据集时,拼接了所有可能的数据集,并采用了90-10的划分比例。
训练超参数
训练过程中使用了以下超参数:
- 学习率: 0.000095637994662983496
- 训练批次大小: 16
- 评估批次大小: 16
- 随机种子: 13
- 梯度累积步数: 2
- 学习率调度器类型: cosine_with_restarts
- 学习率预热步数: 200
- 训练轮数: 100
- 混合精度训练: Native AMP
训练结果
步数 |
训练损失 |
验证损失 |
WER |
500 |
5.097800 |
2.190326 |
1.001207 |
1000 |
0.797500 |
0.331392 |
0.576819 |
1500 |
0.405100 |
0.262009 |
0.549049 |
2000 |
0.322100 |
0.248178 |
0.479626 |
2500 |
0.264600 |
0.258866 |
0.488983 |
3000 |
0.228300 |
0.261523 |
0.469665 |
3500 |
0.201000 |
0.270135 |
0.451856 |
4000 |
0.180900 |
0.279302 |
0.448536 |
4500 |
0.163800 |
0.280921 |
0.459704 |
5000 |
0.147300 |
0.319249 |
0.471778 |
5500 |
0.137600 |
0.289546 |
0.449140 |
6000 |
0.132000 |
0.311350 |
0.458195 |
6500 |
0.117100 |
0.316726 |
0.432840 |
7000 |
0.109200 |
0.302210 |
0.439481 |
7500 |
0.104900 |
0.325913 |
0.439481 |
8000 |
0.097500 |
0.329446 |
0.431935 |
8500 |
0.088600 |
0.345259 |
0.425898 |
9000 |
0.084900 |
0.342891 |
0.428313 |
9500 |
0.080900 |
0.353081 |
0.424389 |
10000 |
0.075600 |
0.347063 |
0.424992 |
10500 |
0.072800 |
0.330086 |
0.424691 |
11000 |
0.068100 |
0.350658 |
0.421974 |
11500 |
0.064700 |
0.342949 |
0.413522 |
12000 |
0.061500 |
0.341704 |
0.415334 |
12500 |
0.059500 |
0.346279 |
0.411410 |
13000 |
0.057400 |
0.349901 |
0.407184 |
13500 |
0.056400 |
0.347733 |
0.402656 |
14000 |
0.053300 |
0.344899 |
0.405976 |
14500 |
0.052900 |
0.346708 |
0.402656 |
15000 |
0.050600 |
0.344118 |
0.400845 |
15500 |
0.050200 |
0.348396 |
0.402958 |
16000 |
0.049800 |
0.348312 |
0.401751 |
16500 |
0.051900 |
0.348372 |
0.401147 |
17000 |
0.049800 |
0.348580 |
0.401147 |
框架版本
- Transformers 4.16.0.dev0
- Pytorch 1.10.0+cu102
- Datasets 1.18.1
- Tokenizers 0.10.3
评估命令
- 在
mozilla-foundation/common_voice_8_0
数据集的test
分割上进行评估
python eval.py --model_id Akashpb13/Central_kurdish_xlsr --dataset mozilla-foundation/common_voice_8_0 --config ckb --split test