LeBenchmark:基于3000小时法语语音训练的大型wav2vec2模型
LeBenchmark提供了一系列在不同法语数据集上预训练的wav2vec2模型,包含自发语音、朗读语音和广播语音。该系列包含两个版本,其中后续版本(LeBenchmark 2.0)在预训练SSL模型数量和下游任务数量方面都较初版有所扩展。如需了解评估wav2vec2模型的不同基准测试详情,请参阅我们的论文:LeBenchmark 2.0:法语语音自监督表征的标准化、可复现及增强框架
模型与数据说明
我们发布了四种不同模型,均可在我们的HuggingFace组织下获取。四种wav2vec2架构(轻量级、基础版、大型和超大型)分别与我们的小型(1K)、中型(3K)、大型(7K)和超大型(14K)语料库结合。简要说明如下:
LeBenchmark 2.0系列:
LeBenchmark初代系列:
使用场景与限制
预训练的wav2vec2模型遵循Apache-2.0许可协议分发,因此可不受严格限制地广泛复用。但需注意,基准测试和相关数据可能涉及未完全开源的数据集。
使用Fairseq进行CTC语音识别微调
由于我们的wav2vec2模型使用Fairseq训练,因此可利用其提供的各类工具进行CTC语音识别微调。完整流程详见这篇博客文章。
请注意:受CTC机制特性限制,语音转文本效果可能达不到最优水平。此外,未来功能更新将取决于Fairseq和HuggingFace的开发进展。
集成SpeechBrain实现语音识别、说话人识别、声源分离...
预训练的wav2vec模型近期广受欢迎。与此同时,SpeechBrain工具包应运而生,为处理前沿语音与深度学习技术提供了更简洁的方案。
虽然目前处于测试阶段,SpeechBrain仍提供两种优雅集成Fairseq训练模型(如我们的LeBenchmark模型)的方式:
- 实时提取wav2vec2特征(冻结编码器参数),可与任意语音架构结合应用场景包括:基于CTC+注意力+语言模型的端到端语音识别、说话人识别/验证、声源分离等
- 实验性功能:为充分发挥wav2vec2潜力,最佳方案是在训练下游任务时同步微调模型。SpeechBrain只需启用标志位即可实现该功能,因此我们的wav2vec2模型可在训练语音识别流程或说话人识别系统时同步微调
如需体验,请参考本教程
引用LeBenchmark
@misc{parcollet2023lebenchmark,
title={LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech},
author={Titouan Parcollet and Ha Nguyen and Solene Evain and Marcely Zanon Boito and Adrien Pupier and Salima Mdhaffar and Hang Le and Sina Alisamir and Natalia Tomashenko and Marco Dinarelli and Shucong Zhang and Alexandre Allauzen and Maximin Coavoux and Yannick Esteve and Mickael Rouvier and Jerome Goulian and Benjamin Lecouteux and Francois Portet and Solange Rossato and Fabien Ringeval and Didier Schwab and Laurent Besacier},
year={2023},
eprint={2309.05472},
archivePrefix={arXiv},
primaryClass={cs.CL}
}