语言:
- 上索布语(hsb)
许可证: apache-2.0
标签:
- 自动语音识别
- mozilla-foundation/common_voice_8_0
- 训练生成
- 上索布语
- 鲁棒语音事件
- 对话模型
- hf-asr排行榜
数据集:
- mozilla-foundation/common_voice_8_0
模型索引:
- 名称: wav2vec2-large-xls-r-300m-hsb-v2
结果:
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: Common Voice 8
类型: mozilla-foundation/common_voice_8_0
参数: hsb
指标:
- 名称: 测试WER
类型: wer
值: 0.4654228855721393
- 名称: 测试CER
类型: cer
值: 0.11351049990708047
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: 鲁棒语音事件-开发数据
类型: speech-recognition-community-v2/dev_data
参数: hsb
指标:
- 名称: 测试WER
类型: wer
值: 不适用
- 名称: 测试CER
类型: cer
值: 不适用
wav2vec2-large-xls-r-300m-hsb-v2
该模型是在MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - HSB数据集上对facebook/wav2vec2-xls-r-300m进行微调的版本。
在评估集上取得了以下结果:
- 损失: 0.5328
- 词错误率(WER): 0.4596
评估命令
- 在mozilla-foundation/common_voice_8_0的测试集上评估
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hsb-v2 --dataset mozilla-foundation/common_voice_8_0 --config hsb --split test --log_outputs
- 在speech-recognition-community-v2/dev_data上评估
未在speech-recognition-community-v2/dev_data中找到上索布语(hsb)
训练超参数
训练过程中使用了以下超参数:
- 学习率: 0.00045
- 训练批次大小: 16
- 评估批次大小: 8
- 随机种子: 42
- 梯度累积步数: 2
- 总训练批次大小: 32
- 优化器: Adam,参数为betas=(0.9,0.999)和epsilon=1e-08
- 学习率调度器类型: 线性
- 学习率预热步数: 500
- 训练轮数: 50
- 混合精度训练: 原生AMP
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
词错误率(WER) |
8.5979 |
3.23 |
100 |
3.5602 |
1.0 |
3.303 |
6.45 |
200 |
3.2238 |
1.0 |
3.2034 |
9.68 |
300 |
3.2002 |
0.9888 |
2.7986 |
12.9 |
400 |
1.2408 |
0.9210 |
1.3869 |
16.13 |
500 |
0.7973 |
0.7462 |
1.0228 |
19.35 |
600 |
0.6722 |
0.6788 |
0.8311 |
22.58 |
700 |
0.6100 |
0.6150 |
0.717 |
25.81 |
800 |
0.6236 |
0.6013 |
0.6264 |
29.03 |
900 |
0.6031 |
0.5575 |
0.5494 |
32.26 |
1000 |
0.5656 |
0.5309 |
0.4781 |
35.48 |
1100 |
0.5289 |
0.4996 |
0.4311 |
38.71 |
1200 |
0.5375 |
0.4768 |
0.3902 |
41.94 |
1300 |
0.5246 |
0.4703 |
0.3508 |
45.16 |
1400 |
0.5382 |
0.4696 |
0.3199 |
48.39 |
1500 |
0.5328 |
0.4596 |
框架版本
- Transformers 4.16.1
- Pytorch 1.10.0+cu111
- Datasets 1.18.2
- Tokenizers 0.11.0