语言: "法语"
缩略图:
标签:
- wav2vec2
许可证: "apache-2.0"
LeBenchmark:基于7千小时法语语音训练的大型wav2vec2模型
LeBenchmark提供了一系列预训练的wav2vec2模型,这些模型基于包含自发、朗读和广播语音的不同法语数据集训练而成。它包含两个版本,其中较新的版本(LeBenchmark 2.0)在预训练的自监督学习模型数量和下游任务数量上都是第一版的扩展版本。如需了解更多关于评估wav2vec2模型的不同基准测试信息,请参阅我们的论文:LeBenchmark 2.0:一个标准化、可复现且增强的法语语音自监督表征框架
模型与数据描述
我们发布了四种不同的模型,可在我们的HuggingFace组织下找到。四种不同的wav2vec2架构——Light、Base、Large和xLarge——分别与我们的1K(小)、3K(中)、7K(大)和14K(超大)语料库结合。简而言之:
LeBenchmark 2.0:
LeBenchmark:
预期用途与限制
预训练的wav2vec2模型遵循Apache-2.0许可证分发。因此,它们可以在没有严格限制的情况下广泛重用。然而,基准测试和数据可能与未完全开源的语料库相关联。
使用Fairseq进行CTC语音识别微调
由于我们的wav2vec2模型是使用Fairseq训练的,因此可以利用其提供的不同工具对模型进行CTC语音识别微调。完整流程已在这篇博客文章中详细总结。
请注意,由于CTC的特性,语音转文本的结果预计不会达到最先进水平。此外,未来可能根据Fairseq和HuggingFace的参与情况新增功能。
集成至SpeechBrain用于语音识别、说话人识别、源分离等
预训练的wav2vec模型近期广受欢迎。与此同时,SpeechBrain工具包推出,提供了一种更简单的方式来处理最先进的语音与深度学习技术。
虽然目前处于测试阶段,但SpeechBrain提供了两种优雅集成Fairseq训练的wav2vec2模型(即我们的LeBenchmark模型)的方法:
- 动态提取wav2vec2特征(冻结wav2vec2编码器)以结合任何语音相关架构。例如:结合CTC+注意力+语言模型的端到端语音识别;说话人识别或验证;源分离等。
- 实验性功能:为充分发挥wav2vec2的优势,最佳方案仍是在训练下游任务时微调模型。这在SpeechBrain中非常简单,只需启用一个标志。因此,我们的wav2vec2模型可以在训练您喜欢的语音识别流程或说话人识别器时进行微调。
如有兴趣,请跟随此教程
引用LeBenchmark
@misc{parcollet2023lebenchmark,
title={LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech},
author={Titouan Parcollet and Ha Nguyen and Solene Evain and Marcely Zanon Boito and Adrien Pupier and Salima Mdhaffar and Hang Le and Sina Alisamir and Natalia Tomashenko and Marco Dinarelli and Shucong Zhang and Alexandre Allauzen and Maximin Coavoux and Yannick Esteve and Mickael Rouvier and Jerome Goulian and Benjamin Lecouteux and Francois Portet and Solange Rossato and Fabien Ringeval and Didier Schwab and Laurent Besacier},
year={2023},
eprint={2309.05472},
archivePrefix={arXiv},
primaryClass={cs.CL}
}