语言:
- myv
许可证: apache-2.0
标签:
- 自动语音识别
- mozilla-foundation/common_voice_8_0
- 训练生成
- myv
- 鲁棒语音事件
- 对话模型
- hf-asr排行榜
数据集:
- mozilla-foundation/common_voice_8_0
模型索引:
- 名称: wav2vec2-xls-r-myv-a1
结果:
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: Common Voice 8
类型: mozilla-foundation/common_voice_8_0
参数: myv
指标:
- 名称: 测试WER
类型: wer
值: 0.6514672686230248
- 名称: 测试CER
类型: cer
值: 0.17226131905088124
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: 鲁棒语音事件 - 开发数据
类型: speech-recognition-community-v2/dev_data
参数: vot
指标:
- 名称: 测试WER
类型: wer
值: 不适用
- 名称: 测试CER
类型: cer
值: 不适用
该模型是基于facebook/wav2vec2-xls-r-300m在MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - MYV数据集上微调的版本。
在评估集上取得了以下结果:
- 损失: 1.0356
- 词错误率(WER): 0.6524
评估命令
1. 在mozilla-foundation/common_voice_8_0的测试集上评估
python eval.py --model_id DrishtiSharma/wav2vec2-xls-r-myv-a1 --dataset mozilla-foundation/common_voice_8_0 --config myv --split test --log_outputs
2. 在speech-recognition-community-v2/dev_data上评估
在speech-recognition-community-v2/dev_data中未找到Erzya语言
训练超参数
训练期间使用了以下超参数:
- 学习率: 0.0004
- 训练批次大小: 16
- 评估批次大小: 32
- 随机种子: 42
- 优化器: Adam,参数为betas=(0.9,0.999)和epsilon=1e-08
- 学习率调度器类型: 线性
- 学习率预热步数: 800
- 训练轮数: 200.0
- 混合精度训练: 原生AMP
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
词错误率(WER) |
5.649 |
9.62 |
500 |
3.0038 |
1.0 |
1.6272 |
19.23 |
1000 |
0.7362 |
0.7819 |
1.1354 |
28.85 |
1500 |
0.6410 |
0.7111 |
1.0424 |
38.46 |
2000 |
0.6907 |
0.7431 |
0.9293 |
48.08 |
2500 |
0.7249 |
0.7102 |
0.8246 |
57.69 |
3000 |
0.7422 |
0.6966 |
0.7837 |
67.31 |
3500 |
0.7413 |
0.6813 |
0.7147 |
76.92 |
4000 |
0.7873 |
0.6930 |
0.6276 |
86.54 |
4500 |
0.8038 |
0.6677 |
0.6041 |
96.15 |
5000 |
0.8240 |
0.6831 |
0.5336 |
105.77 |
5500 |
0.8748 |
0.6749 |
0.4705 |
115.38 |
6000 |
0.9006 |
0.6497 |
0.43 |
125.0 |
6500 |
0.8954 |
0.6551 |
0.3859 |
134.62 |
7000 |
0.9074 |
0.6614 |
0.3342 |
144.23 |
7500 |
0.9693 |
0.6560 |
0.3155 |
153.85 |
8000 |
1.0073 |
0.6691 |
0.2673 |
163.46 |
8500 |
1.0170 |
0.6632 |
0.2409 |
173.08 |
9000 |
1.0304 |
0.6709 |
0.2189 |
182.69 |
9500 |
0.9965 |
0.6546 |
0.1973 |
192.31 |
10000 |
1.0360 |
0.6551 |
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.2+cu102
- Datasets 1.18.2.dev0
- Tokenizers 0.11.0
评估命令
!python eval.py
--model_id DrishtiSharma/wav2vec2-large-xls-r-300m-myv-v1
--dataset mozilla-foundation/common_voice_8_0 --config myv --split test --log_outputs