许可协议:apache-2.0
语言:芬兰语
评估指标:
标签:
- 自动语音识别
- 芬兰语
- 芬兰文
- 训练生成
- hf-asr排行榜
- 鲁棒语音赛事
数据集:
- mozilla-foundation/common_voice_7_0
模型索引:
- 名称:wav2vec2-xlsr-1b-finnish-v2
结果:
- 任务:
名称:自动语音识别
类型:automatic-speech-recognition
数据集:
名称:Common Voice 7
类型:mozilla-foundation/common_voice_7_0
参数:fi
评估指标:
- 名称:测试集词错误率
类型:wer
值:9.73
- 名称:测试集字符错误率
类型:cer
值:1.65
芬兰语ASR专用Wav2Vec2 XLS-R模型
本声学模型是基于facebook/wav2vec2-xls-r-1b针对芬兰语自动语音识别任务微调的版本,使用了275.6小时的芬兰语标注语音数据进行训练。Wav2Vec2 XLS-R模型在这篇论文中首次提出,并在该页面发布。
注意:存在一个在解码阶段使用KenLM语言模型的改进版本,能生成更优转录结果:Finnish-NLP/wav2vec2-xlsr-1b-finnish-lm-v2
模型描述
Wav2Vec2 XLS-R是Facebook AI研发的大规模多语言预训练语音模型,基于43.6万小时无标注语音(含VoxPopuli、MLS、CommonVoice、BABEL和VoxLingua107数据集)采用wav2vec 2.0目标函数在128种语言上预训练。
关于预训练模型的更多信息可参阅技术博客和论文。
本模型是预训练模型(10亿参数版本)针对芬兰语ASR任务的微调版本。
应用场景与限制
适用于芬兰语语音转文字任务。
使用方法
详见本仓库中的run-finnish-asr-models.ipynb笔记本获取详细示例。
局限性
由于训练数据中音频样本最大长度为20秒,本模型对类似长度的短音频效果最佳。对于更长音频可尝试使用,若出现内存不足可参考分块处理方案。
训练数据主要来自芬兰议会数据集,可能对日常方言等场景泛化能力有限。且数据以成年男性语音为主,对儿童和女性语音的识别效果可能欠佳。
训练数据
使用275.6小时芬兰语标注语音数据,来源分布如下:
所有数据集经筛选保留不超过20秒的音频样本。
训练流程
本模型在Hugging Face组织的鲁棒语音挑战赛中训练完成,由OVHcloud赞助Tesla V100 GPU算力。
训练脚本由Hugging Face提供源码,我们仅针对自定义数据集修改了数据加载逻辑。
超参数设置
训练阶段参数:
- 学习率:5e-05
- 训练批大小:32
- 评估批大小:8
- 随机种子:42
- 优化器:8-bit Adam,β=(0.9,0.999),ε=1e-08
- 学习率调度器:线性预热(500步)
- 训练轮次:10
- 混合精度训练:原生AMP
预训练模型facebook/wav2vec2-xls-r-1b
初始化参数:
- 注意力丢弃率:0.094
- 隐藏层丢弃率:0.047
- 特征投影丢弃率:0.04
- 掩码时间概率:0.082
- 层级丢弃率:0.041
- 激活函数丢弃率:0.055
- CTC损失缩减方式:"mean"
训练指标
训练损失 |
轮次 |
步数 |
验证损失 |
词错误率 |
0.7778 |
0.17 |
500 |
0.2851 |
0.3572 |
... |
... |
... |
... |
... |
0.2602 |
9.89 |
29500 |
0.0737 |
0.0975 |
(完整训练日志见原文)
框架版本
- Transformers 4.17.0.dev0
- PyTorch 1.10.2+cu102
- Datasets 1.18.3
- Tokenizers 0.11.0
评估结果
在Common Voice 7.0芬兰语测试集上评估,运行本仓库eval.py
脚本:
python3 eval.py --model_id aapot/wav2vec2-xlsr-1b-finnish-v2 --dataset mozilla-foundation/common_voice_7_0 --config fi --split test
与其他模型对比结果(数值越低越好):
模型 |
带语言模型的词错误率 |
无语言模型的词错误率 |
带语言模型的字符错误率 |
无语言模型的字符错误率 |
aapot/wav2vec2-xlsr-1b-finnish-lm-v2 |
4.09 |
9.73 |
0.88 |
1.65 |
aapot/wav2vec2-xlsr-1b-finnish-lm |
5.65 |
13.11 |
1.20 |
2.23 |
aapot/wav2vec2-xlsr-300m-finnish-lm |
8.16 |
17.92 |
1.97 |
3.36 |
开发团队
欢迎随时联系我们获取更多细节 🤗