语言:
- 塞尔维亚语(sr)
许可证: Apache-2.0
标签:
- 自动语音识别
- 训练生成
- hf-asr排行榜
- 对话模型
- mozilla-foundation/common_voice_8_0
- 鲁棒语音赛事
- 塞尔维亚语(sr)
数据集:
- mozilla-foundation/common_voice_8_0
模型索引:
- 名称: wav2vec2-large-xls-r-300m-sr-v4
成果:
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: Common Voice 8
类型: mozilla-foundation/common_voice_8_0
参数: sr
指标:
- 名称: 测试WER(词错误率)
类型: wer
值: 0.303313
- 名称: 测试CER(字符错误率)
类型: cer
值: 0.1048951
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: 鲁棒语音赛事-开发数据
类型: speech-recognition-community-v2/dev_data
参数: sr
指标:
- 名称: 测试WER
类型: wer
值: 0.9486784706184245
- 名称: 测试CER
类型: cer
值: 0.8084369606584945
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: 鲁棒语音赛事-测试数据
类型: speech-recognition-community-v2/eval_data
参数: sr
指标:
- 名称: 测试WER
类型: wer
值: 94.53
wav2vec2-large-xls-r-300m-sr-v4
该模型是基于facebook/wav2vec2-xls-r-300m在MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - SR数据集上微调的版本。在评估集上取得了以下结果:
- 损失值: 0.5570
- 词错误率(WER): 0.3038
评估命令
- 在mozilla-foundation/common_voice_8_0的测试集上评估:
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sr-v4 --dataset mozilla-foundation/common_voice_8_0 --config sr --split test --log_outputs
- 在speech-recognition-community-v2/dev_data上评估:
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sr-v4 --dataset speech-recognition-community-v2/dev_data --config sr --split validation --chunk_length_s 10 --stride_length_s 1
训练超参数
训练过程中使用的超参数如下:
- 学习率: 0.0003
- 训练批次大小: 16
- 评估批次大小: 8
- 随机种子: 42
- 梯度累积步数: 2
- 总训练批次大小: 32
- 优化器: Adam (β1=0.9, β2=0.999, ε=1e-08)
- 学习率调度器类型: 线性
- 学习率预热步数: 800
- 训练轮数: 200
- 混合精度训练: 原生AMP
训练结果
训练损失 |
训练轮数 |
步数 |
验证损失 |
WER |
8.2934 |
7.5 |
300 |
2.9777 |
0.9995 |
1.5049 |
15.0 |
600 |
0.5036 |
0.4806 |
0.3263 |
22.5 |
900 |
0.5822 |
0.4055 |
0.2008 |
30.0 |
1200 |
0.5609 |
0.4032 |
0.1543 |
37.5 |
1500 |
0.5203 |
0.3710 |
0.1158 |
45.0 |
1800 |
0.6458 |
0.3985 |
0.0997 |
52.5 |
2100 |
0.6227 |
0.4013 |
0.0834 |
60.0 |
2400 |
0.6048 |
0.3836 |
0.0665 |
67.5 |
2700 |
0.6197 |
0.3686 |
0.0602 |
75.0 |
3000 |
0.5418 |
0.3453 |
0.0524 |
82.5 |
3300 |
0.5310 |
0.3486 |
0.0445 |
90.0 |
3600 |
0.5599 |
0.3374 |
0.0406 |
97.5 |
3900 |
0.5958 |
0.3327 |
0.0358 |
105.0 |
4200 |
0.6017 |
0.3262 |
0.0302 |
112.5 |
4500 |
0.5613 |
0.3248 |
0.0285 |
120.0 |
4800 |
0.5659 |
0.3462 |
0.0213 |
127.5 |
5100 |
0.5568 |
0.3206 |
0.0215 |
135.0 |
5400 |
0.6524 |
0.3472 |
0.0162 |
142.5 |
5700 |
0.6223 |
0.3458 |
0.0137 |
150.0 |
6000 |
0.6625 |
0.3313 |
0.0114 |
157.5 |
6300 |
0.5739 |
0.3336 |
0.0101 |
165.0 |
6600 |
0.5906 |
0.3285 |
0.008 |
172.5 |
6900 |
0.5982 |
0.3112 |
0.0076 |
180.0 |
7200 |
0.5399 |
0.3094 |
0.0071 |
187.5 |
7500 |
0.5387 |
0.2991 |
0.0057 |
195.0 |
7800 |
0.5570 |
0.3038 |
框架版本
- Transformers 4.16.2
- PyTorch 1.10.0+cu111
- Datasets 1.18.2
- Tokenizers 0.11.0