语言:
- 上索布语(hsb)
许可证: apache-2.0
标签:
- 自动语音识别
- mozilla-foundation/common_voice_8_0
- 训练生成
- 上索布语
- 鲁棒语音事件
- 对话模型
- hf-asr排行榜
数据集:
- mozilla-foundation/common_voice_8_0
模型索引:
- 名称: wav2vec2-large-xls-r-300m-hsb-v3
结果:
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: Common Voice 8
类型: mozilla-foundation/common_voice_8_0
参数: hsb
指标:
- 名称: 测试WER
类型: wer
值: 0.4763681592039801
- 名称: 测试CER
类型: cer
值: 0.11194945177476305
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: 鲁棒语音事件 - 开发数据
类型: speech-recognition-community-v2/dev_data
参数: hsb
指标:
- 名称: 测试WER
类型: wer
值: 不适用
- 名称: 测试CER
类型: cer
值: 不适用
wav2vec2-large-xls-r-300m-hsb-v3
该模型是基于facebook/wav2vec2-xls-r-300m在MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - HSB数据集上微调的版本。
在评估集上取得了以下结果:
- 损失: 0.6549
- 词错误率(WER): 0.4827
评估命令
-
在mozilla-foundation/common_voice_8_0测试集上评估:
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hsb-v3 --dataset mozilla-foundation/common_voice_8_0 --config hsb --split test --log_outputs
-
在speech-recognition-community-v2/dev_data上评估:
上索布语(hsb)语言未在speech-recognition-community-v2/dev_data中找到!
训练超参数
训练过程中使用的超参数如下:
- 学习率: 0.00045
- 训练批次大小: 16
- 评估批次大小: 8
- 随机种子: 42
- 梯度累积步数: 2
- 总训练批次大小: 32
- 优化器: Adam(betas=(0.9,0.999), epsilon=1e-08
- 学习率调度器类型: 线性
- 学习率预热步数: 500
- 训练轮数: 50
- 混合精度训练: Native AMP
训练结果
训练损失 |
训练轮数 |
步数 |
验证损失 |
词错误率 |
8.8951 |
3.23 |
100 |
3.6396 |
1.0 |
3.314 |
6.45 |
200 |
3.2331 |
1.0 |
3.1931 |
9.68 |
300 |
3.0947 |
0.9906 |
1.7079 |
12.9 |
400 |
0.8865 |
0.8499 |
0.6859 |
16.13 |
500 |
0.7994 |
0.7529 |
0.4804 |
19.35 |
600 |
0.7783 |
0.7069 |
0.3506 |
22.58 |
700 |
0.6904 |
0.6321 |
0.2695 |
25.81 |
800 |
0.6519 |
0.5926 |
0.222 |
29.03 |
900 |
0.7041 |
0.5720 |
0.1828 |
32.26 |
1000 |
0.6608 |
0.5513 |
0.1474 |
35.48 |
1100 |
0.7129 |
0.5319 |
0.1269 |
38.71 |
1200 |
0.6664 |
0.5056 |
0.1077 |
41.94 |
1300 |
0.6712 |
0.4942 |
0.0934 |
45.16 |
1400 |
0.6467 |
0.4879 |
0.0819 |
48.39 |
1500 |
0.6549 |
0.4827 |
框架版本
- Transformers 4.16.1
- Pytorch 1.10.0+cu111
- Datasets 1.18.2
- Tokenizers 0.11.0