语言:
- 维吾尔语
许可证: apache-2.0
标签:
- 自动语音识别
- 训练生成
- hf-asr排行榜
- mozilla-foundation/common_voice_8_0
- 鲁棒语音事件
- 维吾尔语
数据集:
- mozilla-foundation/common_voice_8_0
基础模型: facebook/wav2vec2-xls-r-300m
模型索引:
- 名称: XLS-R-300M 维吾尔语 CV8
结果:
- 任务:
类型: 自动语音识别
名称: 自动语音识别
数据集:
名称: Common Voice 8
类型: mozilla-foundation/common_voice_8_0
参数: ug
指标:
- 类型: 词错误率(WER)
值: 30.5
名称: 测试WER
- 类型: 字符错误率(CER)
值: 5.8
名称: 测试CER
XLS-R-300M 维吾尔语 CV8
本模型是基于facebook/wav2vec2-xls-r-300m在MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - UG数据集上微调得到的版本。在评估集上取得了以下结果:
- 损失: 0.2026
- 词错误率(WER): 0.3248
模型描述
关于模型架构的描述,请参见facebook/wav2vec2-xls-r-300m
该模型的词汇表由维吾尔语波斯-阿拉伯字母表中的字母字符组成,并移除了标点符号。
预期用途与限制
该模型预计适用于以下低精度使用场景:
该模型尚不足以作为实时字幕辅助功能的替代品,也不应以侵犯Common Voice数据集贡献者或其他说话者隐私的方式使用。
训练与评估数据
训练数据使用了Common Voice官方划分的train
和dev
集合。官方test
划分既作为验证数据也用于最终评估。
训练过程
在保持XLS-R模型特征提取层冻结的同时,针对维吾尔语CV8例句微调了最终的CTC/LM层。采用渐进式学习率策略:初始2000步预热阶段,最高0.0001学习率,随后在剩余的9400步(100个周期)中逐步冷却至0。
训练超参数
训练过程中使用以下超参数:
- 学习率: 0.0001
- 训练批大小: 16
- 评估批大小: 8
- 随机种子: 42
- 梯度累积步数: 4
- 总训练批大小: 64
- 优化器: Adam(β1=0.9, β2=0.999,ε=1e-08)
- 学习率调度器类型: 线性
- 学习率预热步数: 2000
- 训练周期数: 100.0
- 混合精度训练: 原生AMP
训练结果
训练损失 |
周期 |
步数 |
验证损失 |
WER |
3.3036 |
5.32 |
500 |
3.2628 |
1.0 |
2.9734 |
10.63 |
1000 |
2.5677 |
0.9980 |
1.3466 |
15.95 |
1500 |
0.4455 |
0.6306 |
1.2424 |
21.28 |
2000 |
0.3603 |
0.5301 |
1.1655 |
26.59 |
2500 |
0.3165 |
0.4740 |
1.1026 |
31.91 |
3000 |
0.2930 |
0.4400 |
1.0655 |
37.23 |
3500 |
0.2675 |
0.4159 |
1.0239 |
42.55 |
4000 |
0.2580 |
0.3913 |
0.9938 |
47.87 |
4500 |
0.2373 |
0.3698 |
0.9655 |
53.19 |
5000 |
0.2379 |
0.3675 |
0.9374 |
58.51 |
5500 |
0.2486 |
0.3795 |
0.9065 |
63.83 |
6000 |
0.2243 |
0.3405 |
0.888 |
69.15 |
6500 |
0.2157 |
0.3277 |
0.8646 |
74.47 |
7000 |
0.2103 |
0.3288 |
0.8602 |
79.78 |
7500 |
0.2088 |
0.3238 |
0.8442 |
85.11 |
8000 |
0.2045 |
0.3266 |
0.8335 |
90.42 |
8500 |
0.2038 |
0.3241 |
0.8288 |
95.74 |
9000 |
0.2024 |
0.3280 |
框架版本
- Transformers 4.17.0.dev0
- PyTorch 1.10.2+cu102
- Datasets 1.18.3
- Tokenizers 0.11.0