许可证:apache-2.0
语言:芬兰语
评估指标:
- 词错误率(wer)
- 字符错误率(cer)
标签:
- 自动语音识别
- 芬兰语
- 芬兰
- 训练生成
- hf-asr排行榜
- 鲁棒语音事件
数据集:
- mozilla-foundation/common_voice_7_0
模型索引:
- 名称:wav2vec2-xlsr-1b-finnish-lm-v2
结果:
- 任务:
名称:自动语音识别
类型:automatic-speech-recognition
数据集:
名称:Common Voice 7
类型:mozilla-foundation/common_voice_7_0
参数:fi
评估指标:
- 名称:测试词错误率
类型:wer
值:4.09
- 名称:测试字符错误率
类型:cer
值:0.88
芬兰语ASR的Wav2Vec2 XLS-R模型
该声学模型是基于facebook/wav2vec2-xls-r-1b针对芬兰语自动语音识别(ASR)任务进行微调的版本。模型使用了275.6小时的芬兰语标注语音数据进行微调。Wav2Vec2 XLS-R模型在此论文中首次提出,并在此页面发布。
此仓库还包含在声学模型解码阶段使用的芬兰语KenLM语言模型。
注意:此模型与Finnish-NLP/wav2vec2-xlsr-1b-finnish-lm-v2完全相同,仅被复制/移动到Finnish-NLP
的Hugging Face组织下。
模型描述
Wav2Vec2 XLS-R是Facebook AI推出的大规模多语言预训练语音模型。它在43.6万小时的无标注语音数据上进行预训练,包括VoxPopuli、MLS、CommonVoice、BABEL和VoxLingua107等数据集,覆盖128种语言,采用wav2vec 2.0目标函数。
更多预训练模型的细节可参考此博客和此论文。
本模型是基于10亿参数预训练模型针对芬兰语ASR任务的微调版本。
用途与限制
此模型适用于芬兰语语音转文本(ASR)任务。
使用方法
参考仓库中的run-finnish-asr-models.ipynb笔记本,了解详细使用示例。
限制与偏差
模型微调时使用的音频样本最长20秒,因此对类似长度的短音频效果最佳。虽然也可尝试处理更长音频,但若出现内存不足错误,可参考此博客介绍的音频分块方法。
微调数据主要来自芬兰议会数据集,可能对日常口语或方言等差异较大的领域泛化能力有限。此外,数据以成年男性语音为主,可能对儿童或女性语音的识别效果有所下降。
解码阶段使用的芬兰语KenLM语言模型基于音频转录文本和芬兰维基百科子集训练,因此可能对非正式口语或方言的适应性不足。建议针对特定领域语言训练自定义KenLM模型以优化解码效果。
训练数据
模型使用275.6小时芬兰语标注语音数据微调,数据来源如下:
所有数据集均过滤为最长20秒的音频样本。
训练过程
模型在Hugging Face组织的鲁棒语音挑战赛中训练,使用OVHcloud赞助的Tesla V100 GPU完成。
训练脚本由Hugging Face提供,此处可获取。我们仅修改了数据加载部分以适配自定义数据集。
KenLM语言模型训练遵循Hugging Face的博客教程,使用音频训练文本和10万条清洗后的芬兰维基百科(2021年8月)样本训练5-gram模型。
训练超参数
训练使用以下超参数:
- 学习率:5e-05
- 训练批次大小:32
- 评估批次大小:8
- 随机种子:42
- 优化器:8-bit Adam,betas=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型:线性
- 学习率预热步数:500
- 训练轮次:10
- 混合精度训练:原生AMP
预训练facebook/wav2vec2-xls-r-1b
模型初始化超参数:
- 注意力丢弃率:0.094
- 隐藏层丢弃率:0.047
- 特征投影丢弃率:0.04
- 掩码时间概率:0.082
- 层丢弃率:0.041
- 激活丢弃率:0.055
- CTC损失缩减方式:"mean"
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
词错误率 |
0.7778 |
0.17 |
500 |
0.2851 |
0.3572 |
...(后续训练数据省略)... |
|
|
|
|
框架版本
- Transformers 4.17.0.dev0
- PyTorch 1.10.2+cu102
- Datasets 1.18.3
- Tokenizers 0.11.0
评估结果
使用Common Voice 7.0芬兰语测试集评估。
运行仓库中的eval.py
脚本进行评估:
python3 eval.py --model_id aapot/wav2vec2-xlsr-1b-finnish-lm-v2 --dataset mozilla-foundation/common_voice_7_0 --config fi --split test
该模型(表格首行)与其他模型对比的词错误率(WER)和字符错误率(CER)结果:
|
带语言模型的WER |
无语言模型的WER |
带语言模型的CER |
无语言模型的CER |
aapot/wav2vec2-xlsr-1b-finnish-lm-v2 |
4.09 |
9.73 |
0.88 |
1.65 |
aapot/wav2vec2-xlsr-1b-finnish-lm |
5.65 |
13.11 |
1.20 |
2.23 |
aapot/wav2vec2-xlsr-300m-finnish-lm |
8.16 |
17.92 |
1.97 |
3.36 |
团队成员
欢迎随时联系我们获取更多细节 🤗