语言:
- 荷兰语
标签:
- 自动语音识别
- hf-asr排行榜
- 对话模型
- mozilla-foundation/common_voice_8_0
- 荷兰语
- 比利时荷兰语
- 荷兰荷兰语
- 鲁棒语音事件
数据集:
- mozilla-foundation/common_voice_8_0
模型索引:
- 名称: xls-r-nl-v1-cv8-lm
结果:
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: Common Voice 8
类型: mozilla-foundation/common_voice_8_0
参数: nl
指标:
- 名称: 测试WER
类型: wer
值: 3.93
- 名称: 测试CER
类型: cer
值: 1.22
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: 鲁棒语音事件 - 开发数据
类型: speech-recognition-community-v2/dev_data
参数: nl
指标:
- 名称: 测试WER
类型: wer
值: 16.35
- 名称: 测试CER
类型: cer
值: 9.64
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: 鲁棒语音事件 - 测试数据
类型: speech-recognition-community-v2/eval_data
参数: nl
指标:
- 名称: 测试WER
类型: wer
值: 15.81
基于XLS-R的CTC模型,带有来自Open Subtitles的5-gram语言模型
此模型是facebook/wav2vec2-xls-r-2b-22-to-16的一个版本,主要在CGN数据集以及MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - NL数据集上进行了微调(详情见下文),并基于Open Subtitles荷兰语语料库添加了一个大型5-gram语言模型。此模型在Common Voice 8.0的评估集上取得了以下结果:
- WER: 0.03931
- CER: 0.01224
重要提示:网站上未启用hunspell
拼写修正器,返回的是原始的CTC+LM结果。Hunspell重新排序仅在eval.py
解码脚本中可用。为了获得最佳结果,请在使用该模型进行本地推理时使用该文件中的代码。
重要提示:评估此模型需要apt install libhunspell-dev
以及hunspell
的pip安装,此外还需要pipy-kenlm
和pyctcdecode
的pip安装(参见install_requirements.sh
);此外,模型的块长度和步长分别优化为12s
和2s
(参见eval.sh
)。
快速说明:“鲁棒语音事件”集未包含清理后的转录文本,因此其WER/CER被大大高估。例如,开发集中的2014
被保留为数字,但会被识别为tweeduizend veertien
,这算作3个错误(2014
缺失,且tweeduizend
和veertien
错误插入)。开发集中的其他规范化问题包括某些单词周围存在单引号,这些引号最终导致不匹配,尽管单词本身是正确的(但没有引号),以及最终转录中删除了某些语音单词(ja
等)。因此,我们在开发集上的实际错误率显著低于报告值。

您可以自己比较预测与目标,例如使用此差异工具。
我们从事语音识别:亲爱的读者!如果您考虑在生产中使用此(或其他)模型,但希望有一个专门针对您的用例(使用文本和/或标记语音)微调的模型,请随时联系我们的团队。此模型是在鲁棒语音识别挑战活动期间由François REMY (推特)和Geoffroy VANDERREYDT开发的。
我们要感谢OVH为我们提供了V100S GPU。
模型描述
该模型接受16kHz的声音输入,并使用带有48个字母的Wav2Vec2ForCTC解码器输出每帧的字母转录概率。
为了提高准确性,使用了基于pyctcdecode
的束搜索解码器;它根据在Open Subtitles荷兰语语料库上训练的5-gram语言模型重新排列最有希望的排列。
为了进一步处理拼写错误,使用hunspell
为不在语言模型的单字中的单词提出替代拼写。然后根据上述训练的语言模型对这些替代方案进行重新排序,并施加与替代词和识别词之间的Levenshtein编辑距离成比例的惩罚。例如,这可以将collegas
修正为collega's
或将gogol
修正为google
。
预期用途与限制
此模型可用于将荷兰语或佛兰芒口语转换为文本(无标点符号)。
训练与评估数据
该模型经历了以下训练:
- 使用Facebook的2B参数模型初始化。
- 在
cv8/nl
数据集上训练了5
个周期(6000次迭代,批次大小为32)。
- 在
cgn
数据集上训练了1
个周期(36000次迭代,批次大小为32)。
- 在
cv8/nl
数据集上训练了5
个周期(6000次迭代,批次大小为32)。
框架版本
- Transformers 4.16.0
- Pytorch 1.10.2+cu102
- Datasets 1.18.3
- Tokenizers 0.11.0