许可证:apache-2.0
语言:芬兰语
评估指标:
标签:
- 自动语音识别
- 芬兰语
- 芬兰文
- 训练生成
- hf-asr排行榜
- 鲁棒语音赛事
数据集:
- mozilla-foundation/common_voice_7_0
模型索引:
- 名称:wav2vec2-xlsr-1b-finnish
结果:
- 任务:
名称:自动语音识别
类型:automatic-speech-recognition
数据集:
名称:Common Voice 7
类型:mozilla-foundation/common_voice_7_0
参数:fi
评估指标:
- 名称:测试WER
类型:wer
值:13.11
- 名称:测试CER
类型:cer
值:2.23
芬兰语ASR的Wav2Vec2 XLS-R模型
本声学模型是基于facebook/wav2vec2-xls-r-1b针对芬兰语自动语音识别(ASR)进行微调的版本。模型使用了259.57小时的芬兰语标注语音数据进行微调。Wav2Vec2 XLS-R的详细介绍可参阅此论文,其首次发布于此页面。
注意:存在一个在解码阶段使用KenLM语言模型的版本,能生成更优的转录结果:Finnish-NLP/wav2vec2-xlsr-1b-finnish-lm
注意:此模型有一个更优的V2版本,通过额外16小时数据进行了更长时间的微调:Finnish-NLP/wav2vec2-xlsr-1b-finnish-lm-v2
模型描述
Wav2Vec2 XLS-R是Facebook AI针对语音的大规模多语言预训练模型。其预训练使用了43.6万小时的无标注语音数据,涵盖VoxPopuli、MLS、CommonVoice、BABEL及VoxLingua107等数据集,并采用wav2vec 2.0目标函数,支持128种语言。
更多预训练模型信息可参考此博客和此论文。
本模型是基于预训练模型(10亿参数版本)针对芬兰语ASR任务微调后的版本。
用途与限制
此模型适用于芬兰语语音转文本(ASR)任务。
使用方法
参考本仓库中的run-finnish-asr-models.ipynb笔记本,获取详细使用示例。
局限性
模型微调时使用的音频样本最长20秒,因此对类似长度的短音频效果最佳。但对更长的音频也可尝试,若遇内存不足问题,可参考此博客的分块处理方法。
微调数据主要来自芬兰议会数据集,可能对日常方言等非正式场景泛化能力有限。此外,数据以成年男性语音为主,可能对儿童或女性语音效果稍逊。
训练数据
模型微调使用了259.57小时芬兰语标注语音数据,来源如下:
数据集经筛选,仅包含最长20秒的音频样本。
训练流程
模型在Hugging Face组织的鲁棒语音挑战赛中训练完成,训练使用OVHcloud赞助的Tesla V100 GPU。
训练脚本由Hugging Face提供,详见此处,我们仅修改了自定义数据集的数据加载部分。
训练超参数
训练期间使用的超参数:
- 学习率:5e-05
- 训练批次大小:32
- 评估批次大小:8
- 随机种子:42
- 优化器:8-bit Adam,参数beta=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型:线性
- 学习率预热步数:500
- 训练轮次:5
- 混合精度训练:原生AMP
预训练模型facebook/wav2vec2-xls-r-1b
初始化超参数:
- 注意力丢弃率:0.094
- 隐藏层丢弃率:0.047
- 特征投影丢弃率:0.04
- 时间掩码概率:0.082
- 层级丢弃率:0.041
- 激活丢弃率:0.055
- CTC损失缩减方式:"mean"
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
WER |
0.968 |
0.18 |
500 |
0.4870 |
0.4720 |
0.6557 |
0.36 |
1000 |
0.2450 |
0.2931 |
...(后续数据省略) |
|
|
|
|
框架版本
- Transformers 4.17.0.dev0
- PyTorch 1.10.2+cu102
- Datasets 1.18.3
- Tokenizers 0.11.0
评估结果
评估使用Common Voice 7.0芬兰语测试分集进行。
运行本仓库的eval.py
脚本进行评估:
python3 eval.py --model_id aapot/wav2vec2-xlsr-1b-finnish --dataset mozilla-foundation/common_voice_7_0 --config fi --split test
该模型(表格第二行)与其他模型的WER(词错误率)和CER(字符错误率)对比结果如下:
|
带语言模型的WER |
无语言模型的WER |
带语言模型的CER |
无语言模型的CER |
aapot/wav2vec2-xlsr-1b-finnish-lm-v2 |
4.09 |
9.73 |
0.88 |
1.65 |
aapot/wav2vec2-xlsr-1b-finnish-lm |
5.65 |
13.11 |
1.20 |
2.23 |
aapot/wav2vec2-xlsr-300m-finnish-lm |
8.16 |
17.92 |
1.97 |
3.36 |
团队成员
欢迎联系我们获取更多细节 🤗