语言: zh-HK
许可证: apache-2.0
标签:
- 自动语音识别
- 训练生成
- hf-asr-leaderboard
- 鲁棒语音赛事
数据集:
模型索引:
- 名称: Wav2Vec2 XLS-R 300M 粤语(zh-HK)语言模型
结果:
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: Common Voice
类型: common_voice
参数: zh-HK
指标:
- 名称: 测试CER
类型: cer
值: 24.09
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: Common Voice 7
类型: mozilla-foundation/common_voice_7_0
参数: zh-HK
指标:
- 名称: 测试CER
类型: cer
值: 23.1
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: Common Voice 8
类型: mozilla-foundation/common_voice_8_0
参数: zh-HK
指标:
- 名称: 测试CER
类型: cer
值: 23.02
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: 鲁棒语音赛事 - 开发数据
类型: speech-recognition-community-v2/dev_data
参数: zh-HK
指标:
- 名称: 测试CER
类型: cer
值: 56.86
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: 鲁棒语音赛事 - 测试数据
类型: speech-recognition-community-v2/eval_data
参数: zh-HK
指标:
- 名称: 测试CER
类型: cer
值: 55.76
Wav2Vec2 XLS-R 300M 粤语(zh-HK)语言模型
Wav2Vec2 XLS-R 300M 粤语(zh-HK)语言模型是基于XLS-R架构的自动语音识别模型。该模型是在Common Voice数据集的zh-HK
子集上对Wav2Vec2-XLS-R-300M进行微调的版本。随后,基于多个PyCantonese语料库训练的5-gram语言模型被添加到该模型中。
该模型使用HuggingFace的PyTorch框架训练,并参与了由HuggingFace组织的鲁棒语音挑战赛事。所有训练均在OVH赞助的Tesla V100上完成。
训练使用的所有必要脚本可在文件与版本选项卡中找到,训练指标通过Tensorboard记录。
关于N-gram语言模型的训练,我们遵循了HuggingFace提供的博客教程。
模型
模型 |
参数量 |
架构 |
训练/验证数据(文本) |
wav2vec2-xls-r-300m-zh-HK-lm-v2 |
300M |
XLS-R |
Common Voice zh-HK 数据集 |
评估结果
该模型在不使用语言模型时的评估结果如下:
数据集 |
CER |
Common Voice |
31.73% |
Common Voice 7 |
23.11% |
Common Voice 8 |
23.02% |
鲁棒语音赛事 - 开发数据 |
56.60% |
加入语言模型后,其评估结果如下:
数据集 |
CER |
Common Voice |
24.09% |
Common Voice 7 |
23.10% |
Common Voice 8 |
23.02% |
鲁棒语音赛事 - 开发数据 |
56.86% |
训练流程
训练过程未涉及语言模型的添加。以下结果直接取自原始自动语音识别模型训练。
训练超参数
训练中使用的超参数如下:
学习率
: 0.0001
训练批次大小
: 8
评估批次大小
: 8
随机种子
: 42
梯度累积步数
: 4
总训练批次大小
: 32
优化器
: Adam,参数为betas=(0.9, 0.999)
和epsilon=1e-08
学习率调度器类型
: 线性
学习率预热步数
: 2000
训练轮数
: 100.0
混合精度训练
: 原生AMP
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
Wer |
Cer |
69.8341 |
1.34 |
500 |
80.0722 |
1.0 |
1.0 |
6.6418 |
2.68 |
1000 |
6.6346 |
1.0 |
1.0 |
... |
... |
... |
... |
... |
... |
0.9923 |
97.85 |
36500 |
0.8076 |
1.2278 |
0.3122 |
1.0451 |
99.2 |
37000 |
0.8086 |
1.2451 |
0.3156 |
免责声明
请注意预训练数据集中可能存在的偏见可能会影响该模型的结果。
作者
Wav2Vec2 XLS-R 300M 粤语(zh-HK)语言模型由Wilson Wongso训练和评估。所有计算和开发均在OVH云上完成。
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.2+cu102
- Datasets 1.18.4.dev0
- Tokenizers 0.11.0