许可证:apache-2.0
语言:芬兰语
评估指标:
标签:
- 自动语音识别
- 芬兰语
- 芬兰文
- 训练生成
- hf-asr排行榜
- 鲁棒语音赛事
数据集:
- mozilla-foundation/common_voice_7_0
模型索引:
- 名称:wav2vec2-xlsr-1b-finnish-lm
结果:
- 任务:
名称:自动语音识别
类型:automatic-speech-recognition
数据集:
名称:Common Voice 7
类型:mozilla-foundation/common_voice_7_0
参数:fi
评估指标:
- 名称:测试WER
类型:wer
值:5.65
- 名称:测试CER
类型:cer
值:1.2
- 任务:
名称:自动语音识别
类型:automatic-speech-recognition
数据集:
名称:FLEURS ASR
类型:google/fleurs
参数:fi_fi
评估指标:
- 名称:测试WER
类型:wer
值:20.34
- 名称:测试CER
类型:cer
值:6.97
芬兰语ASR的Wav2vec2-xls-r-1b模型
此声学模型是基于facebook/wav2vec2-xls-r-1b微调的芬兰语自动语音识别(ASR)版本。模型使用了259.57小时的芬兰语标注语音数据进行微调。Wav2Vec2 XLS-R在此论文中首次提出,并在此页面发布。
此仓库还包含解码阶段与声学模型配合使用的芬兰语KenLM语言模型。
注意:此模型与aapot/wav2vec2-xlsr-1b-finnish-lm完全相同,仅迁移至Finnish-NLP
组织下。
注意:此模型有一个更优的V2版本,额外使用16小时数据进行了更长时间微调:Finnish-NLP/wav2vec2-xlsr-1b-finnish-lm-v2
模型描述
Wav2Vec2 XLS-R是Facebook AI的大规模多语言预训练语音模型,基于43.6万小时无标注语音(含VoxPopuli、MLS、CommonVoice、BABEL和VoxLingua107)预训练,采用wav2vec 2.0目标函数,支持128种语言。
预训练模型详情可参阅博客和论文。
本模型是预训练模型(10亿参数版本)针对芬兰语ASR的微调版本。
用途与限制
适用于芬兰语语音转文本任务。
使用方法
参考仓库中的run-finnish-asr-models.ipynb笔记本获取详细示例。
局限性
模型微调时使用的音频最长20秒,因此对类似长度的短音频效果最佳。处理更长音频可尝试分块方法。
训练数据主要来自芬兰议会数据集,可能对日常口语或方言泛化能力有限。数据以成年男性为主,可能对儿童或女性语音识别效果稍逊。
解码阶段使用的芬兰语KenLM语言模型基于音频转录文本训练,可能对非正式语言或方言适应性不足。建议针对特定领域训练自定义KenLM模型。
训练数据
模型使用259.57小时芬兰语标注语音数据微调,来源如下:
数据经过过滤,仅含最长20秒的音频样本。
训练流程
模型在Hugging Face组织的鲁棒语音挑战赛中训练,使用OVHcloud赞助的Tesla V100 GPU完成。
训练脚本由Hugging Face提供此处,仅对数据加载部分进行了自定义修改。
KenLM语言模型训练遵循Hugging Face的教程,使用5-gram模型,训练数据为音频转录文本。
超参数设置
训练超参数:
- 学习率:5e-05
- 训练批大小:32
- 评估批大小:8
- 随机种子:42
- 优化器:8-bit Adam,betas=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型:线性
- 预热步数:500
- 训练轮次:5
- 混合精度训练:原生AMP
预训练模型初始化参数:
- 注意力丢弃率:0.094
- 隐藏层丢弃率:0.047
- 特征投影丢弃率:0.04
- 掩码时间概率:0.082
- 层级丢弃率:0.041
- 激活丢弃率:0.055
- CTC损失缩减方式:"mean"
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
WER |
0.968 |
0.18 |
500 |
0.4870 |
0.4720 |
...(后续数据省略)... |
|
|
|
|
评估结果
在Common Voice 7.0芬兰测试集、Common Voice 9.0芬兰测试集和FLEURS ASR芬兰测试集上评估。
Common Voice 7.0测试
运行以下命令评估:
python3 eval.py --model_id Finnish-NLP/wav2vec2-xlsr-1b-finnish-lm --dataset mozilla-foundation/common_voice_7_0 --config fi --split test
模型对比结果(WER/CER带语言模型):
- 95M参数模型:5.85% / 1.35%
- 300M参数模型:4.13% / 0.90%
- 本模型(1B参数):5.65% / 1.20%
- V2版本(1B参数):4.09% / 0.88%
Common Voice 9.0测试
运行以下命令评估:
python3 eval.py --model_id Finnish-NLP/wav2vec2-xlsr-1b-finnish-lm --dataset mozilla-foundation/common_voice_9_0 --config fi --split test
模型对比结果(WER/CER带语言模型):
- 95M参数模型:5.93% / 1.40%
- 300M参数模型:4.13% / 0.92%
- 本模型(1B参数):5.35% / 1.14%
- V2版本(1B参数):3.72% / 0.80%
FLEURS ASR测试
运行以下命令评估:
python3 eval.py --model_id Finnish-NLP/wav2vec2-xlsr-1b-finnish-lm --dataset google/fleurs --config fi_fi --split test
模型对比结果(WER/CER带语言模型):
- 95M参数模型:13.99% / 6.07%
- 300M参数模型:12.44% / 5.77%
- 本模型(1B参数):20.34% / 6.97%
- V2版本(1B参数):12.11% / 5.65%
团队成员
欢迎联系我们获取更多详情 🤗