许可证:apache-2.0
语言:fi
评估指标:
标签:
- 自动语音识别
- 芬兰语
- 芬兰文
- 训练生成
- hf-asr排行榜
- 鲁棒语音赛事
数据集:
- mozilla-foundation/common_voice_7_0
模型索引:
- 名称:wav2vec2-xlsr-300m-finnish
结果:
- 任务:
名称:自动语音识别
类型:automatic-speech-recognition
数据集:
名称:Common Voice 7
类型:mozilla-foundation/common_voice_7_0
参数:fi
评估指标:
- 名称:测试WER
类型:wer
值:17.92
- 名称:测试CER
类型:cer
值:3.36
芬兰语ASR的Wav2Vec2 XLS-R模型
本声学模型是基于facebook/wav2vec2-xls-r-300m针对芬兰语自动语音识别(ASR)任务微调后的版本。模型使用了275.6小时的芬兰语标注语音数据进行微调。Wav2Vec2 XLS-R模型由此论文首次提出,并在此页面发布。
注意:解码阶段结合KenLM语言模型的版本能生成更优的转录结果,参见:Finnish-NLP/wav2vec2-xlsr-300m-finnish-lm
模型描述
Wav2Vec2 XLS-R是Facebook AI研发的大规模多语言预训练语音模型,基于43.6万小时无标注语音数据(含VoxPopuli、MLS、CommonVoice、BABEL及VoxLingua107)预训练,采用wav2vec 2.0目标函数,支持128种语言。
关于预训练模型的更多信息,可参阅此博客和此论文。
本模型为预训练模型(3亿参数版本)针对芬兰语ASR的微调版本。
用途与限制
此模型适用于芬兰语语音转文本任务。
使用方法
参考本仓库中的run-finnish-asr-models.ipynb笔记本,获取详细使用示例。
限制与偏差
模型微调时使用的音频样本最长20秒,因此对类似长度的短音频效果最佳。但也可尝试处理更长音频,若遇内存不足问题,可参考此博客的音频分块方法。
微调数据绝大部分来自芬兰议会数据集,可能对日常方言等场景泛化能力有限。此外,数据以成年男性语音为主,对儿童或女性语音的识别效果可能欠佳。
训练数据
模型使用275.6小时芬兰语标注语音数据微调,数据来源如下:
所有数据集经筛选,仅包含最长20秒的音频样本。
训练流程
模型在Hugging Face组织的鲁棒语音挑战赛中训练,由OVHcloud赞助Tesla V100 GPU算力。
训练脚本由Hugging Face提供,源码在此,仅针对自定义数据集修改了数据加载逻辑。
超参数配置
训练超参数:
- 学习率:5e-04
- 训练批大小:32
- 评估批大小:32
- 随机种子:42
- 优化器:8-bit Adam,betas=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型:线性
- 预热步数:500
- 训练轮次:10
- 混合精度训练:原生AMP
预训练模型facebook/wav2vec2-xls-r-300m
初始化参数:
- 注意力丢弃率:0.094
- 隐藏层丢弃率:0.047
- 特征投影丢弃率:0.04
- 掩码时间概率:0.082
- 层级丢弃率:0.041
- 激活函数丢弃率:0.055
- CTC损失缩减方式:"mean"
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
WER |
0.973 |
0.17 |
500 |
0.5750 |
0.6844 |
...(后续数据省略) |
|
|
|
|
框架版本
- Transformers 4.17.0.dev0
- PyTorch 1.10.2+cu102
- Datasets 1.18.3
- Tokenizers 0.11.0
评估结果
使用Common Voice 7.0芬兰语测试集评估。
运行仓库中的eval.py
脚本进行评估:
python3 eval.py --model_id aapot/wav2vec2-xlsr-300m-finnish --dataset mozilla-foundation/common_voice_7_0 --config fi --split test
本模型(表格第三行)与其他模型对比结果:
模型 |
WER(带LM) |
WER(无LM) |
CER(带LM) |
CER(无LM) |
aapot/wav2vec2-xlsr-1b-finnish-lm-v2 |
4.09 |
9.73 |
0.88 |
1.65 |
aapot/wav2vec2-xlsr-1b-finnish-lm |
5.65 |
13.11 |
1.20 |
2.23 |
aapot/wav2vec2-xlsr-300m-finnish-lm |
8.16 |
17.92 |
1.97 |
3.36 |
团队成员
欢迎联系我们获取更多细节 🤗