语言:
- 国际语
许可证: apache-2.0
标签:
- 自动语音识别
- 训练生成
- hf-asr排行榜
- 鲁棒语音事件
- mozilla-foundation/common_voice_8_0
- 鲁棒语音事件
数据集:
- mozilla-foundation/common_voice_8_0
模型索引:
- 名称: wav2vec2-large-xls-r-300m-ia
结果:
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: Common Voice 8
类型: mozilla-foundation/common_voice_8_0
参数: ia
指标:
- 名称: 使用语言模型的测试WER
类型: wer
值: 8.6074
- 名称: 使用语言模型的测试CER
类型: cer
值: 2.4147
wav2vec2-large-xls-r-300m-ia
此模型是基于facebook/wav2vec2-xls-r-300m在common_voice数据集上微调的版本。
在评估集上取得了以下结果:
- 损失: 0.1452
- 词错误率(WER): 0.1253
训练过程
训练在Google Colab中进行,训练笔记本可在代码库中找到
训练和评估数据
语言模型基于数据集(Common Voice 8.0的国际语部分)训练集和验证集中处理的句子文本创建
评估在笔记本中进行,可在代码库中查看"notebook_evaluation_wav2vec2_ia.ipynb"
不使用语言模型的测试WER
wer = 20.1776 %
cer = 4.7205 %
使用语言模型的测试WER
wer = 8.6074 %
cer = 2.4147 %
使用eval.py进行评估
huggingface-cli login #登录huggingface获取访问common voice v8的认证令牌
#使用语言模型运行
python eval.py --model_id ayameRushia/wav2vec2-large-xls-r-300m-ia --dataset mozilla-foundation/common_voice_8_0 --config ia --split test
# 不使用语言模型运行
python eval.py --model_id ayameRushia/wav2vec2-large-xls-r-300m-ia --dataset mozilla-foundation/common_voice_8_0 --config ia --split test --greedy
训练超参数
训练期间使用的超参数如下:
- 学习率: 3e-05
- 训练批次大小: 16
- 评估批次大小: 4
- 随机种子: 42
- 梯度累积步数: 2
- 总训练批次大小: 32
- 优化器: Adam,参数为betas=(0.9,0.999)和epsilon=1e-08
- 学习率调度器类型: 线性
- 学习率预热步数: 400
- 训练轮数: 30
- 混合精度训练: Native AMP
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
WER |
7.432 |
1.87 |
400 |
2.9636 |
1.0 |
2.6922 |
3.74 |
800 |
2.2111 |
0.9977 |
1.2581 |
5.61 |
1200 |
0.4864 |
0.4028 |
0.6232 |
7.48 |
1600 |
0.2807 |
0.2413 |
0.4479 |
9.35 |
2000 |
0.2219 |
0.1885 |
0.3654 |
11.21 |
2400 |
0.1886 |
0.1606 |
0.323 |
13.08 |
2800 |
0.1716 |
0.1444 |
0.2935 |
14.95 |
3200 |
0.1687 |
0.1443 |
0.2707 |
16.82 |
3600 |
0.1632 |
0.1382 |
0.2559 |
18.69 |
4000 |
0.1507 |
0.1337 |
0.2433 |
20.56 |
4400 |
0.1572 |
0.1358 |
0.2338 |
22.43 |
4800 |
0.1489 |
0.1305 |
0.2258 |
24.3 |
5200 |
0.1485 |
0.1278 |
0.2218 |
26.17 |
5600 |
0.1470 |
0.1272 |
0.2169 |
28.04 |
6000 |
0.1470 |
0.1270 |
0.2117 |
29.91 |
6400 |
0.1452 |
0.1253 |
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.0+cu111
- Datasets 1.18.3
- Tokenizers 0.11.0