许可证:apache-2.0
语言:
- 日语
标签:
- 自动语音识别
- 公共语音数据集
- hf-asr排行榜
- 日语
- 鲁棒语音事件
数据集:
- mozilla-foundation/common_voice_7_0
模型索引:
- 名称:wav2vec2-xls-r-1b
结果:
- 任务:
名称:语音识别
类型:自动语音识别
数据集:
名称:Common Voice 7.0
类型:mozilla-foundation/common_voice_7_0
参数:ja
指标:
- 名称:测试WER(带语言模型)
类型:wer
值:7.98
- 名称:测试CER(带语言模型)
类型:cer
值:3.42
- 任务:
名称:语音识别
类型:自动语音识别
数据集:
名称:Common Voice 8.0
类型:mozilla-foundation/common_voice_8_0
参数:ja
指标:
- 名称:测试WER(带语言模型)
类型:wer
值:7.88
- 名称:测试CER(带语言模型)
类型:cer
值:3.35
- 任务:
名称:语音识别
类型:自动语音识别
数据集:
名称:鲁棒语音事件 - 开发数据
类型:speech-recognition-community-v2/dev_data
参数:ja
指标:
- 名称:测试WER(带语言模型)
类型:wer
值:28.07
- 名称:测试CER(带语言模型)
类型:cer
值:16.27
- 任务:
名称:自动语音识别
类型:自动语音识别
数据集:
名称:鲁棒语音事件 - 测试数据
类型:speech-recognition-community-v2/eval_data
参数:ja
指标:
模型描述
该模型是基于facebook/wav2vec2-xls-r-1b在公共日语语音数据集上进行微调的版本,包括Common Voice 7.0、JUST(东京大学Saruwatari实验室的日语语音语料库)、JSSS(用于摘要和简化的日语语音语料库)以及CSS10(单说话人语音数据集集合)。预处理数据集可在VUMICHIEN/COMMON_VOICE_LARGE_JSUT_JSSS_CSS10中找到。
总训练数据:
约60小时
基准WER结果:
基准CER结果:
评估
请使用eval.py文件运行评估:
pip install mecab-python3 unidic-lite pykakasi
python eval.py --model_id vumichien/wav2vec2-xls-r-1b-japanese --dataset mozilla-foundation/common_voice_7_0 --config ja --split test --chunk_length_s 5.0 --stride_length_s 1.0 --log_outputs
训练过程
训练超参数
训练过程中使用的超参数如下:
- 学习率:5e-05
- 训练批次大小:16
- 评估批次大小:8
- 随机种子:42
- 梯度累积步数:4
- 总训练批次大小:64
- 优化器:Adam,参数为betas=(0.9,0.999)和epsilon=1e-08
- 学习率调度器类型:线性
- 学习率预热步数:1000
- 训练轮数:100.0
- 混合精度训练:原生AMP
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
WER |
CER |
2.2896 |
3.37 |
1500 |
0.4748 |
0.4013 |
0.1767 |
1.1608 |
6.74 |
3000 |
0.3350 |
0.3159 |
0.1456 |
1.1042 |
10.11 |
4500 |
0.3119 |
0.2971 |
0.1400 |
1.0494 |
13.48 |
6000 |
0.2974 |
0.2867 |
0.1353 |
1.0061 |
16.85 |
7500 |
0.2802 |
0.2746 |
0.1300 |
0.9629 |
20.22 |
9000 |
0.2844 |
0.2776 |
0.1326 |
0.9267 |
23.59 |
10500 |
0.2577 |
0.2603 |
0.1255 |
0.8984 |
26.96 |
12000 |
0.2508 |
0.2531 |
0.1226 |
0.8729 |
30.34 |
13500 |
0.2629 |
0.2606 |
0.1254 |
0.8546 |
33.71 |
15000 |
0.2402 |
0.2447 |
0.1193 |
0.8304 |
37.08 |
16500 |
0.2532 |
0.2472 |
0.1209 |
0.8075 |
40.45 |
18000 |
0.2439 |
0.2469 |
0.1198 |
0.7827 |
43.82 |
19500 |
0.2387 |
0.2372 |
0.1167 |
0.7627 |
47.19 |
21000 |
0.2344 |
0.2331 |
0.1147 |
0.7402 |
50.56 |
22500 |
0.2314 |
0.2299 |
0.1135 |
0.718 |
53.93 |
24000 |
0.2257 |
0.2267 |
0.1114 |
0.7016 |
57.3 |
25500 |
0.2204 |
0.2184 |
0.1089 |
0.6804 |
60.67 |
27000 |
0.2227 |
0.2181 |
0.1085 |
0.6625 |
64.04 |
28500 |
0.2138 |
0.2112 |
0.1058 |
0.6465 |
67.42 |
30000 |
0.2141 |
0.2081 |
0.1044 |
0.6238 |
70.79 |
31500 |
0.2172 |
0.2082 |
0.1050 |
0.6062 |
74.16 |
33000 |
0.2174 |
0.2058 |
0.1043 |
0.588 |
77.53 |
34500 |
0.2156 |
0.2034 |
0.1027 |
0.5722 |
80.9 |
36000 |
0.2162 |
0.2032 |
0.1029 |
0.5585 |
84.27 |
37500 |
0.2156 |
0.2022 |
0.1021 |
0.5456 |
87.64 |
39000 |
0.2126 |
0.1993 |
0.1009 |
0.5325 |
91.01 |
40500 |
0.2121 |
0.1966 |
0.1003 |
0.5229 |
94.38 |
42000 |
0.2104 |
0.1941 |
0.0991 |
0.5134 |
97.75 |
43500 |
0.2108 |
0.1948 |
0.0992 |
框架版本
- Transformers 4.16.0.dev0
- Pytorch 1.10.1+cu102
- Datasets 1.17.1.dev0
- Tokenizers 0.11.0