语言:
- 爱沙尼亚语
许可证: Apache-2.0
标签:
- 自动语音识别
- Mozilla基金会/common_voice_8_0
- 训练生成
- 爱沙尼亚语
- 鲁棒语音事件
- 对话模型
- hf-asr排行榜
数据集:
- Mozilla基金会/common_voice_8_0
模型索引:
- 名称: sammy786/wav2vec2-xlsr-estonian
结果:
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: Common Voice 8
类型: mozilla-foundation/common_voice_8_0
参数: et
指标:
- 名称: 测试WER
类型: wer
值: 23.61
- 名称: 测试CER
类型: cer
值: 4.6
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: 鲁棒语音事件 - 开发数据
类型: speech-recognition-community-v2/dev_data
参数: et
指标:
- 名称: 测试WER
类型: wer
值: 61.83
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: 鲁棒语音事件 - 测试数据
类型: speech-recognition-community-v2/eval_data
参数: et
指标:
- 名称: 测试WER
类型: wer
值: 67.43
sammy786/wav2vec2-xlsr-estonian
该模型是基于facebook/wav2vec2-xls-r-1b在MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - et数据集上微调的版本。
在评估集(训练数据集的10%与其他及开发数据集合并)上取得了以下结果:
模型描述
对"facebook/wav2vec2-xls-r-1b"进行了微调。
预期用途与限制
需要更多信息
训练与评估数据
训练数据 -
Common Voice芬兰语train.tsv、dev.tsv和other.tsv
训练过程
创建训练数据集时,合并了所有可用数据集并采用90-10分割。
训练超参数
训练过程中使用了以下超参数:
- 学习率: 0.000045637994662983496
- 训练批次大小: 8
- 评估批次大小: 16
- 随机种子: 13
- 梯度累积步数: 2
- 总训练批次大小: 32
- 优化器: Adam,参数beta=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型: 带重启的余弦退火
- 学习率预热步数: 500
- 训练轮数: 30
- 混合精度训练: Native AMP
训练结果
步数 |
训练损失 |
验证损失 |
WER |
200 |
3.729100 |
1.096018 |
0.959867 |
400 |
0.996900 |
0.310228 |
0.443600 |
600 |
0.762900 |
0.210873 |
0.346117 |
800 |
0.621400 |
0.200381 |
0.331513 |
1000 |
0.408000 |
0.196382 |
0.322014 |
1200 |
0.320200 |
0.176281 |
0.312515 |
1400 |
0.315300 |
0.179433 |
0.303847 |
1600 |
0.445800 |
0.420985 |
0.315839 |
1800 |
0.644600 |
0.433833 |
0.354904 |
2000 |
0.550900 |
0.327117 |
0.336500 |
2200 |
0.498600 |
0.289830 |
0.325457 |
2400 |
0.488300 |
0.294309 |
0.314177 |
2600 |
0.491700 |
0.311175 |
0.318689 |
2800 |
0.508500 |
0.314744 |
0.320470 |
3000 |
0.499900 |
0.314834 |
0.320589 |
框架版本
- Transformers 4.16.0.dev0
- Pytorch 1.10.0+cu102
- Datasets 1.17.1.dev0
- Tokenizers 0.10.3
评估命令
- 在
mozilla-foundation/common_voice_8_0
的test
分割上评估
python eval.py --model_id sammy786/wav2vec2-xlsr-estonian --dataset mozilla-foundation/common_voice_8_0 --config et --split test