语言:
- 日语
许可证: Apache-2.0
标签:
- 自动语音识别
- 训练生成
- hf-asr排行榜
- 日语
- mozilla-foundation/common_voice_8_0
- 鲁棒语音事件
数据集:
- mozilla-foundation/common_voice_8_0
模型索引:
- 名称: XLS-R-300-m
结果:
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: Common Voice 8
类型: mozilla-foundation/common_voice_8_0
参数: ja
指标:
- 名称: 测试WER
类型: wer
值: 95.82
- 名称: 测试CER
类型: cer
值: 23.64
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: 鲁棒语音事件 - 开发数据
类型: speech-recognition-community-v2/dev_data
参数: de
指标:
- 名称: 测试WER
类型: wer
值: 100.0
- 名称: 测试CER
类型: cer
值: 30.99
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: 鲁棒语音事件 - 开发数据
类型: speech-recognition-community-v2/dev_data
参数: ja
指标:
- 名称: 测试CER
类型: cer
值: 30.37
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: 鲁棒语音事件 - 测试数据
类型: speech-recognition-community-v2/eval_data
参数: ja
指标:
- 名称: 测试CER
类型: cer
值: 34.42
该模型是基于facebook/wav2vec2-xls-r-300m在MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - JA数据集上微调的版本。
训练和评估期间,使用pykakasi库将汉字转换为平假名。模型可以输出平假名和片假名字符。由于没有空格,WER不适合评估性能,CER更为合适。
在mozilla-foundation/common_voice_8_0上达到:
在speech-recognition-community-v2/dev_data上达到:
在评估集上取得以下结果:
模型描述
需要更多信息
预期用途与限制
需要更多信息
训练与评估数据
需要更多信息
训练过程
训练超参数
训练期间使用以下超参数:
- 学习率: 7.5e-05
- 训练批次大小: 48
- 评估批次大小: 8
- 随机种子: 42
- 优化器: Adam,beta=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型: 线性
- 学习率预热步数: 2000
- 训练轮数: 50.0
- 混合精度训练: Native AMP
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
WER |
4.0974 |
4.72 |
1000 |
4.0178 |
1.9535 |
2.1276 |
9.43 |
2000 |
0.9301 |
1.2128 |
1.7622 |
14.15 |
3000 |
0.7103 |
1.5527 |
1.6397 |
18.87 |
4000 |
0.6729 |
1.4269 |
1.5468 |
23.58 |
5000 |
0.6087 |
1.2497 |
1.4885 |
28.3 |
6000 |
0.5786 |
1.3222 |
1.451 |
33.02 |
7000 |
0.5726 |
1.3768 |
1.3912 |
37.74 |
8000 |
0.5518 |
1.2497 |
1.3617 |
42.45 |
9000 |
0.5352 |
1.2694 |
1.3113 |
47.17 |
10000 |
0.5228 |
1.2781 |
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.2+cu102
- Datasets 1.18.2.dev0
- Tokenizers 0.11.0
评估命令
- 在
mozilla-foundation/common_voice_8_0
的test
集上评估:
python ./eval.py --model_id AndrewMcDowell/wav2vec2-xls-r-300m-japanese --dataset mozilla-foundation/common_voice_8_0 --config ja --split test --log_outputs
- 在
mozilla-foundation/common_voice_8_0
的test
集上评估:
python ./eval.py --model_id AndrewMcDowell/wav2vec2-xls-r-300m-japanese --dataset speech-recognition-community-v2/dev_data --config de --split validation --chunk_length_s 5.0 --stride_length_s 1.0