语言:
- cv
许可证: apache-2.0
标签:
- 自动语音识别
- mozilla-foundation/common_voice_8_0
- 训练生成
- cv
- 鲁棒语音事件
- 对话模型
- hf-asr排行榜
数据集:
- mozilla-foundation/common_voice_8_0
模型索引:
- 名称: sammy786/wav2vec2-xlsr-chuvash
结果:
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: Common Voice 8
类型: mozilla-foundation/common_voice_8_0
参数: cv
指标:
- 名称: 测试WER
类型: wer
值: 27.81
- 名称: 测试CER
类型: cer
值: 5.79
sammy786/wav2vec2-xlsr-chuvash
该模型是基于facebook/wav2vec2-xls-r-1b在MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - cv数据集上微调得到的版本。在评估集(由训练数据集的10%与其他及开发数据集合并而成)上取得了以下结果:
- 损失: 18.02
- 词错误率(WER): 29.22
模型描述
对"facebook/wav2vec2-xls-r-1b"进行了微调。
预期用途与限制
需要更多信息
训练与评估数据
训练数据 -
Common Voice芬兰语train.tsv、dev.tsv和other.tsv
训练过程
为创建训练数据集,所有可能的数据集被合并后采用了90-10分割。
训练超参数
训练过程中使用了以下超参数:
- 学习率: 0.000045637994662983496
- 训练批次大小: 8
- 评估批次大小: 16
- 随机种子: 13
- 梯度累积步数: 4
- 总训练批次大小: 32
- 优化器: Adam,参数beta=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型: 带重启的余弦退火
- 学习率预热步数: 500
- 训练轮数: 30
- 混合精度训练: 原生AMP
训练结果
步数 |
训练损失 |
验证损失 |
词错误率(WER) |
200 |
6.559100 |
2.274687 |
1.000000 |
400 |
1.346100 |
0.508268 |
0.681995 |
600 |
0.797500 |
0.391174 |
0.572876 |
800 |
0.556300 |
0.308620 |
0.489283 |
1000 |
0.435800 |
0.273956 |
0.454014 |
1200 |
0.388700 |
0.311027 |
0.499415 |
1400 |
0.338300 |
0.243977 |
0.413874 |
1600 |
0.294000 |
0.214134 |
0.385230 |
1800 |
0.276000 |
0.245991 |
0.397311 |
2000 |
0.253900 |
0.208324 |
0.363016 |
2200 |
0.233600 |
0.222156 |
0.370811 |
2400 |
0.219700 |
0.202602 |
0.364186 |
2600 |
0.205000 |
0.241339 |
0.384451 |
2800 |
0.176000 |
0.263558 |
0.384061 |
3000 |
0.166700 |
0.211768 |
0.333398 |
3200 |
0.160600 |
0.198677 |
0.321512 |
3400 |
0.154600 |
0.208655 |
0.328722 |
3600 |
0.146800 |
0.188022 |
0.317810 |
3800 |
0.133200 |
0.181083 |
0.313133 |
4000 |
0.134200 |
0.190084 |
0.316251 |
4200 |
0.114200 |
0.193034 |
0.312159 |
4400 |
0.117300 |
0.194122 |
0.312354 |
4600 |
0.112300 |
0.191111 |
0.305534 |
4800 |
0.107800 |
0.185930 |
0.302611 |
5000 |
0.100400 |
0.178625 |
0.299883 |
5200 |
0.099800 |
0.176442 |
0.294622 |
5400 |
0.100800 |
0.177935 |
0.294427 |
5600 |
0.096300 |
0.182903 |
0.293843 |
5800 |
0.094200 |
0.181041 |
0.293453 |
6000 |
0.097600 |
0.179865 |
0.290725 |
6200 |
0.091600 |
0.180327 |
0.292868 |
6400 |
0.093100 |
0.180275 |
0.292284 |
框架版本
- Transformers 4.16.0.dev0
- Pytorch 1.10.0+cu102
- Datasets 1.17.1.dev0
- Tokenizers 0.10.3
评估命令
- 在
mozilla-foundation/common_voice_8_0
的test
分割上进行评估
python eval.py --model_id sammy786/wav2vec2-xlsr-chuvash --dataset mozilla-foundation/common_voice_8_0 --config cv --split test