语言:
- 维吾尔语
许可证: apache-2.0
标签:
- 自动语音识别
- mozilla-foundation/common_voice_7_0
- 训练生成
- 维吾尔语
- 鲁棒语音事件
- hf-asr排行榜
数据集:
- mozilla-foundation/common_voice_7_0
基础模型: facebook/wav2vec2-xls-r-300m
模型索引:
- 名称: XLS-R-300M 维吾尔语 CV7
结果:
- 任务:
类型: 自动语音识别
名称: 自动语音识别
数据集:
名称: Common Voice 7
类型: mozilla-foundation/common_voice_7_0
参数: 维吾尔语
指标:
- 类型: 词错误率(WER)
值: 25.845
名称: 测试词错误率
- 类型: 字符错误率(CER)
值: 4.795
名称: 测试字符错误率
XLS-R-300M 维吾尔语 CV7
该模型是基于facebook/wav2vec2-xls-r-300m在MOZILLA-FOUNDATION/COMMON_VOICE_7_0 - 维吾尔语数据集上微调的版本。
在评估集上取得了以下结果:
模型描述
关于模型架构的描述,请参见facebook/wav2vec2-xls-r-300m
该模型的词汇表由维吾尔语波斯-阿拉伯字母表中的字母字符组成,并移除了标点符号。
预期用途与限制
该模型预计可用于一些低精度要求的场景,例如:
该模型不足以作为无障碍实时字幕的替代品,也不应以侵犯Common Voice数据集贡献者或其他说话者隐私的方式使用。
训练与评估数据
训练数据使用了Common Voice官方划分的train
和dev
集的组合。官方test
集被用作验证数据以及最终评估。
训练过程
在微调过程中,XLS-R模型的特征提取层被冻结,同时在维吾尔语CV7例句上调整最终的CTC/LM层。采用了渐进式学习率,初始2000步为预热阶段,最大学习率为0.0001,随后在剩余的18500步(100个epoch)中逐渐冷却至0。
训练超参数
训练过程中使用了以下超参数:
- 学习率: 0.0001
- 训练批次大小: 8
- 评估批次大小: 8
- 随机种子: 42
- 梯度累积步数: 4
- 总训练批次大小: 32
- 优化器: Adam,参数为betas=(0.9,0.999)和epsilon=1e-08
- 学习率调度器类型: 线性
- 学习率预热步数: 2000
- 训练轮数: 100.0
- 混合精度训练: 原生AMP
训练结果
训练损失 |
训练轮数 |
步数 |
验证损失 |
词错误率 |
3.3043 |
2.73 |
500 |
3.2415 |
1.0 |
3.0482 |
5.46 |
1000 |
2.9591 |
1.0 |
1.4767 |
8.2 |
1500 |
0.4779 |
0.5777 |
1.3152 |
10.93 |
2000 |
0.3697 |
0.4938 |
1.2246 |
13.66 |
2500 |
0.3084 |
0.4459 |
1.1781 |
16.39 |
3000 |
0.2842 |
0.4154 |
1.1351 |
19.13 |
3500 |
0.2615 |
0.3929 |
1.1052 |
21.86 |
4000 |
0.2462 |
0.3747 |
1.0711 |
24.59 |
4500 |
0.2366 |
0.3652 |
1.035 |
27.32 |
5000 |
0.2268 |
0.3557 |
1.0277 |
30.05 |
5500 |
0.2243 |
0.3450 |
1.002 |
32.79 |
6000 |
0.2204 |
0.3389 |
0.9837 |
35.52 |
6500 |
0.2156 |
0.3349 |
0.9773 |
38.25 |
7000 |
0.2127 |
0.3289 |
0.9807 |
40.98 |
7500 |
0.2142 |
0.3274 |
0.9582 |
43.72 |
8000 |
0.2004 |
0.3142 |
0.9548 |
46.45 |
8500 |
0.2022 |
0.3050 |
0.9251 |
49.18 |
9000 |
0.2019 |
0.3035 |
0.9103 |
51.91 |
9500 |
0.1964 |
0.3021 |
0.915 |
54.64 |
10000 |
0.1970 |
0.3032 |
0.8962 |
57.38 |
10500 |
0.2007 |
0.3046 |
0.8729 |
60.11 |
11000 |
0.1967 |
0.2942 |
0.8744 |
62.84 |
11500 |
0.1952 |
0.2885 |
0.874 |
65.57 |
12000 |
0.1894 |
0.2895 |
0.8457 |
68.31 |
12500 |
0.1895 |
0.2828 |
0.8519 |
71.04 |
13000 |
0.1912 |
0.2875 |
0.8301 |
73.77 |
13500 |
0.1878 |
0.2760 |
0.8226 |
76.5 |
14000 |
0.1808 |
0.2701 |
0.8071 |
79.23 |
14500 |
0.1849 |
0.2741 |
0.7999 |
81.97 |
15000 |
0.1808 |
0.2717 |
0.7947 |
84.7 |
15500 |
0.1821 |
0.2716 |
0.7783 |
87.43 |
16000 |
0.1824 |
0.2661 |
0.7729 |
90.16 |
16500 |
0.1773 |
0.2639 |
0.7759 |
92.9 |
17000 |
0.1767 |
0.2629 |
0.7713 |
95.63 |
17500 |
0.1780 |
0.2621 |
0.7628 |
98.36 |
18000 |
0.1773 |
0.2594 |
框架版本
- Transformers 4.16.0.dev0
- Pytorch 1.10.1+cu102
- Datasets 1.18.2.dev0
- Tokenizers 0.11.0