语言:
- 吉尔吉斯语
许可证: apache-2.0
标签:
- 自动语音识别
- 训练生成
- hf-asr排行榜
- mozilla-foundation/common_voice_8_0
- 鲁棒语音事件
数据集:
- mozilla-foundation/common_voice_8_0
基础模型: facebook/wav2vec2-xls-r-300m
模型索引:
- 名称: XLS-R-300M 吉尔吉斯语 CV8
结果:
- 任务:
类型: 自动语音识别
名称: 自动语音识别
数据集:
名称: Common Voice 8
类型: mozilla-foundation/common_voice_8_0
参数: ky
指标:
- 类型: wer
值: 19.01
名称: 测试WER(带语言模型)
- 类型: cer
值: 5.38
名称: 测试CER(带语言模型)
- 类型: wer
值: 31.28
名称: 测试WER(无语言模型)
- 类型: cer
值: 7.66
名称: 测试CER(无语言模型)
XLS-R-300M 吉尔吉斯语 CV8
该模型是在MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - KY数据集上对facebook/wav2vec2-xls-r-300m进行微调的版本。
在验证集上取得了以下结果:
- 损失: 0.5497
- WER: 0.2945
- CER: 0.0791
模型描述
关于模型架构的描述,请参见facebook/wav2vec2-xls-r-300m
模型词汇表由去除标点符号的西里尔字母组成。
kenlm语言模型是使用训练集和无效语料库分割的文本构建的。
预期用途与限制
该模型预计在以下低保真度使用场景中具有一定实用性:
该模型不足以作为辅助功能的实时字幕替代品,也不应以侵犯Common Voice数据集贡献者或其他说话者隐私的方式使用。
训练与评估数据
训练数据使用了Common Voice官方分割中的train
、dev
和other
组合。官方test
分割的一半用作验证数据,完整的test
集用于最终评估。
训练过程
在微调XLS-R模型的最终CTC/LM层以适应吉尔吉斯语CV8示例句子时,冻结了特征提取层。采用渐进式学习率,初始预热阶段为500步,最大值为0.0001,然后在剩余的8100步(300个epoch)中逐渐冷却回0。
训练超参数
训练过程中使用了以下超参数:
- 学习率: 0.0001
- 训练批次大小: 32
- 评估批次大小: 8
- 随机种子: 42
- 梯度累积步数: 4
- 总训练批次大小: 128
- 优化器: Adam,参数beta=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型: 线性
- 学习率预热步数: 500
- 训练轮数: 300.0
- 混合精度训练: 原生AMP
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
WER |
CER |
3.1079 |
18.51 |
500 |
2.6795 |
0.9996 |
0.9825 |
0.8506 |
37.04 |
1000 |
0.4323 |
0.3718 |
0.0961 |
0.6821 |
55.55 |
1500 |
0.4105 |
0.3311 |
0.0878 |
0.6091 |
74.07 |
2000 |
0.4281 |
0.3168 |
0.0851 |
0.5429 |
92.58 |
2500 |
0.4525 |
0.3147 |
0.0842 |
0.5063 |
111.11 |
3000 |
0.4619 |
0.3144 |
0.0839 |
0.4661 |
129.62 |
3500 |
0.4660 |
0.3039 |
0.0818 |
0.4353 |
148.15 |
4000 |
0.4695 |
0.3083 |
0.0820 |
0.4048 |
166.65 |
4500 |
0.4909 |
0.3085 |
0.0824 |
0.3852 |
185.18 |
5000 |
0.5074 |
0.3048 |
0.0812 |
0.3567 |
203.69 |
5500 |
0.5111 |
0.3012 |
0.0810 |
0.3451 |
222.22 |
6000 |
0.5225 |
0.2982 |
0.0804 |
0.325 |
240.73 |
6500 |
0.5270 |
0.2955 |
0.0796 |
0.3089 |
259.25 |
7000 |
0.5381 |
0.2929 |
0.0793 |
0.2941 |
277.76 |
7500 |
0.5565 |
0.2923 |
0.0794 |
0.2945 |
296.29 |
8000 |
0.5495 |
0.2951 |
0.0789 |
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.2+cu102
- Datasets 1.18.3
- Tokenizers 0.11.0