语言:
- dv
许可证: apache-2.0
标签:
- 自动语音识别
- mozilla-foundation/common_voice_8_0
- 训练生成
- dv
- 鲁棒语音事件
- 对话模型
- hf-asr排行榜
数据集:
- mozilla-foundation/common_voice_8_0
模型索引:
- 名称: sammy786/wav2vec2-xlsr-dhivehi
结果:
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: Common Voice 8
类型: mozilla-foundation/common_voice_8_0
参数: dv
指标:
- 名称: 测试WER
类型: wer
值: 26.91
- 名称: 测试CER
类型: cer
值: 4.02
sammy786/wav2vec2-xlsr-dhivehi
该模型是基于facebook/wav2vec2-xls-r-1b在MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - dv数据集上微调的版本。
在评估集(即训练数据集的10%与其他及开发数据集合并)上取得了以下结果:
模型描述
"facebook/wav2vec2-xls-r-1b"经过微调。
预期用途与限制
需要更多信息
训练与评估数据
训练数据 -
Common voice Finnish的train.tsv、dev.tsv和other.tsv
训练过程
创建训练数据集时,所有可能的数据集被合并,并采用90-10的比例分割。
训练超参数
训练过程中使用了以下超参数:
- 学习率: 0.000045637994662983496
- 训练批次大小: 8
- 评估批次大小: 16
- 随机种子: 13
- 梯度累积步数: 4
- 总训练批次大小: 32
- 优化器: Adam,参数为betas=(0.9,0.999)和epsilon=1e-08
- 学习率调度器类型: cosine_with_restarts
- 学习率预热步数: 500
- 训练轮数: 30
- 混合精度训练: Native AMP
训练结果
步数 |
训练损失 |
验证损失 |
WER |
200 |
4.883800 |
3.190218 |
1.000000 |
400 |
1.600100 |
0.497887 |
0.726159 |
600 |
0.928500 |
0.358781 |
0.603892 |
800 |
0.867900 |
0.309132 |
0.570786 |
1000 |
0.743100 |
0.309116 |
0.552954 |
1200 |
0.725100 |
0.266839 |
0.538378 |
1400 |
0.786200 |
0.259797 |
0.535897 |
1600 |
0.655700 |
0.245691 |
0.517290 |
1800 |
0.650500 |
0.246957 |
0.516204 |
2000 |
0.685500 |
0.234808 |
0.516204 |
2200 |
0.487100 |
0.228409 |
0.507753 |
2400 |
0.401300 |
0.221087 |
0.495968 |
2600 |
0.359300 |
0.212476 |
0.489301 |
2800 |
0.347300 |
0.204848 |
0.487750 |
3000 |
0.327000 |
0.203163 |
0.478756 |
3200 |
0.337100 |
0.210235 |
0.487595 |
3400 |
0.308900 |
0.201471 |
0.491316 |
3600 |
0.292600 |
0.192437 |
0.476120 |
3800 |
0.289600 |
0.198398 |
0.468445 |
4000 |
0.290200 |
0.193484 |
0.467204 |
4200 |
0.272600 |
0.193999 |
0.470150 |
4400 |
0.266700 |
0.187384 |
0.460769 |
4600 |
0.253800 |
0.187279 |
0.476663 |
4800 |
0.266400 |
0.197395 |
0.466817 |
5000 |
0.258000 |
0.188920 |
0.456660 |
5200 |
0.237200 |
0.180770 |
0.457358 |
5400 |
0.237900 |
0.178149 |
0.448287 |
5600 |
0.232600 |
0.179827 |
0.461002 |
5800 |
0.228500 |
0.182142 |
0.445185 |
6000 |
0.221000 |
0.173619 |
0.440688 |
6200 |
0.219500 |
0.172291 |
0.442859 |
6400 |
0.219400 |
0.173339 |
0.430609 |
6600 |
0.201900 |
0.177552 |
0.426423 |
6800 |
0.199000 |
0.173157 |
0.429834 |
7000 |
0.200000 |
0.166503 |
0.423709 |
7200 |
0.194600 |
0.171812 |
0.429834 |
7400 |
0.192100 |
0.164989 |
0.420530 |
7600 |
0.185000 |
0.168355 |
0.418825 |
7800 |
0.175100 |
0.168128 |
0.419290 |
8000 |
0.173500 |
0.167959 |
0.424950 |
8200 |
0.172200 |
0.173643 |
0.414793 |
8400 |
0.164200 |
0.167020 |
0.406342 |
8600 |
0.170800 |
0.168050 |
0.405334 |
8800 |
0.157900 |
0.164290 |
0.396573 |
9000 |
0.159900 |
0.163188 |
0.397426 |
9200 |
0.151700 |
0.164370 |
0.390991 |
9400 |
0.146600 |
0.165053 |
0.392852 |
9600 |
0.142200 |
0.164939 |
0.391844 |
9800 |
0.148300 |
0.164422 |
0.385719 |
10000 |
0.136200 |
0.166569 |
0.385951 |
10200 |
0.140700 |
0.161377 |
0.379594 |
10400 |
0.133300 |
0.165194 |
0.378276 |
10600 |
0.131300 |
0.164328 |
0.369205 |
10800 |
0.135500 |
0.160254 |
0.373236 |
11000 |
0.121100 |
0.163522 |
0.372693 |
框架版本
- Transformers 4.16.0.dev0
- Pytorch 1.10.0+cu102
- Datasets 1.17.1.dev0
- Tokenizers 0.10.3
评估命令
- 在
mozilla-foundation/common_voice_8_0
的test
分割上进行评估
python eval.py --model_id sammy786/wav2vec2-xlsr-dhivehi --dataset mozilla-foundation/common_voice_8_0 --config dv --split test