语言:
- 法语
许可证: apache-2.0
标签:
- 自动语音识别
- mozilla-foundation/common_voice_8_0
- 训练生成
- 鲁棒语音事件
- hf-asr排行榜
数据集:
- mozilla-foundation/common_voice_8_0
模型索引:
- 名称: XLS-R-1B - 法语
结果:
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: Common Voice 8
类型: mozilla-foundation/common_voice_8_0
参数: fr
指标:
- 名称: 测试WER(带语言模型)
类型: wer
值: 15.4
- 名称: 测试CER(带语言模型)
类型: cer
值: 5.36
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: 鲁棒语音事件 - 开发数据
类型: speech-recognition-community-v2/dev_data
参数: fr
指标:
- 名称: 测试WER(带语言模型)
类型: wer
值: 25.05
- 名称: 测试CER(带语言模型)
类型: cer
值: 12.45
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: 鲁棒语音事件 - 测试数据
类型: speech-recognition-community-v2/eval_data
参数: fr
指标:
- 名称: 测试WER
类型: wer
值: 27.1
模型描述
此模型是基于facebook/wav2vec2-xls-r-1b在MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - FR数据集上微调的版本。
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率: 7.5e-05
- 训练批次大小: 16
- 评估批次大小: 16
- 随机种子: 42
- 梯度累积步数: 8
- 总训练批次大小: 128
- 优化器: Adam,参数为betas=(0.9,0.999)和epsilon=1e-08
- 学习率调度器类型: 线性
- 学习率预热步数: 2000
- 训练轮数: 6.0
- 混合精度训练: Native AMP
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
WER |
0.9827 |
0.29 |
1000 |
inf |
0.2937 |
1.0203 |
0.57 |
2000 |
inf |
0.2711 |
1.0048 |
0.86 |
3000 |
inf |
0.2620 |
0.9858 |
1.15 |
4000 |
inf |
0.2522 |
0.9709 |
1.43 |
5000 |
inf |
0.2365 |
0.9347 |
1.72 |
6000 |
inf |
0.2332 |
0.9256 |
2.01 |
7000 |
inf |
0.2261 |
0.8936 |
2.29 |
8000 |
inf |
0.2203 |
0.877 |
2.58 |
9000 |
inf |
0.2096 |
0.8393 |
2.87 |
10000 |
inf |
0.2017 |
0.8156 |
3.15 |
11000 |
inf |
0.1936 |
0.8015 |
3.44 |
12000 |
inf |
0.1880 |
0.774 |
3.73 |
13000 |
inf |
0.1834 |
0.8372 |
4.01 |
14000 |
inf |
0.1934 |
0.8075 |
4.3 |
15000 |
inf |
0.1923 |
0.8069 |
4.59 |
16000 |
inf |
0.1877 |
0.8064 |
4.87 |
17000 |
inf |
0.1955 |
0.801 |
5.16 |
18000 |
inf |
0.1891 |
0.8022 |
5.45 |
19000 |
inf |
0.1895 |
0.792 |
5.73 |
20000 |
inf |
0.1854 |
在验证集上取得最佳结果的步数为13000:
计算验证损失时出现了一些问题。
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.2+cu102
- Datasets 1.18.3.dev0
- Tokenizers 0.11.0
评估命令
- 在
mozilla-foundation/common_voice_8
的test
分割上进行评估
python eval.py --model_id Plim/xls-r-1b-cv_8-fr --dataset mozilla-foundation/common_voice_8_0 --config fr --split test
- 在
speech-recognition-community-v2/dev_data
上进行评估
python eval.py --model_id Plim/xls-r-1b-cv_8-fr --dataset speech-recognition-community-v2/dev_data --config fr --split validation --chunk_length_s 5.0 --stride_length_s 1.0
评估结果
不带语言模型:
数据集 |
WER |
CER |
TEST CV |
18.33 |
5.60 |
DEV音频 |
31.33 |
13.20 |
TEST音频 |
/ |
/ |
带语言模型:
数据集 |
WER |
CER |
TEST CV |
15.40 |
5.36 |
DEV音频 |
25.05 |
12.45 |
TEST音频 |
/ |
/ |