语言: "沃洛夫语"
缩略图:
管道标签: 自动语音识别
标签:
- CTC
- pytorch
- speechbrain
- Transformer
许可证: "apache-2.0"
数据集:
- Dvoice
评估指标:
- 词错误率(WER)
- 字符错误率(CER)
基于DVoice沃洛夫语训练的wav2vec 2.0 CTC/Attention模型(无语言模型)
本仓库提供了一套完整的端到端工具,用于在SpeechBrain框架下对ALFFA沃洛夫语数据集进行预训练的自动语音识别。为了获得更好的体验,我们建议您深入了解SpeechBrain。
DVoice版本 |
验证集CER |
验证集WER |
测试集CER |
测试集WER |
v2.0 |
4.81 |
16.25 |
4.83 |
16.05 |
流程说明
该ASR系统由两个相互关联的模块组成:
- 分词器(unigram):将单词转换为子词单元,通过训练文本进行训练。
- 声学模型(wav2vec2.0 + CTC):结合预训练的wav2vec 2.0模型(facebook/wav2vec2-large-xlsr-53)与两个DNN层,并在Darija数据集上进行微调。最终的声学表示通过CTC贪婪解码器处理。系统训练使用16kHz采样率(单声道)的录音。当调用transcribe_file时,代码会自动对音频进行归一化处理(如重采样和单声道选择)。
安装SpeechBrain
首先,请使用以下命令安装transformers和SpeechBrain:
pip install speechbrain transformers
请注意,我们建议您阅读SpeechBrain教程,了解更多关于SpeechBrain的信息。
转录您自己的沃洛夫语音频文件
from speechbrain.inference.ASR import EncoderASR
asr_model = EncoderASR.from_hparams(source="speechbrain/asr-wav2vec2-dvoice-wolof", savedir="pretrained_models/asr-wav2vec2-dvoice-wolof")
asr_model.transcribe_file('speechbrain/asr-wav2vec2-dvoice-wolof/example_wolof.wav')
GPU推理
要在GPU上进行推理,调用from_hparams
方法时添加run_opts={"device":"cuda"}
。
训练
该模型使用SpeechBrain训练。从头开始训练步骤如下:
- 克隆SpeechBrain:
git clone https://github.com/speechbrain/speechbrain/
- 安装:
cd speechbrain
pip install -r requirements.txt
pip install -e .
- 运行训练:
cd recipes/DVoice/ASR/CTC
python train_with_wav2vec2.py hparams/train_wol_with_wav2vec.yaml --data_folder=/localscratch/ALFFA_PUBLIC/ASR/WOLOF/data/
局限性
SpeechBrain团队不保证该模型在其他数据集上的性能表现。
引用SpeechBrain
@misc{SB2021,
author = {Ravanelli, Mirco and Parcollet, Titouan and Rouhe, Aku and Plantinga, Peter and Rastorgueva, Elena and Lugosch, Loren and Dawalatabad, Nauman and Ju-Chieh, Chou and Heba, Abdel and Grondin, Francois and Aris, William and Liao, Chien-Feng and Cornell, Samuele and Yeh, Sung-Lin and Na, Hwidong and Gao, Yan and Fu, Szu-Wei and Subakan, Cem and De Mori, Renato and Bengio, Yoshua },
title = {SpeechBrain},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\\\\url{https://github.com/speechbrain/speechbrain}},
}
关于DVoice
DVoice是一项社区倡议,旨在为非洲低资源语言提供数据和模型,以促进语音技术的使用。由于这些语言的数据匮乏,需要采用针对每种语言的特定方法收集数据。目前使用两种不同的方法:基于Mozilla Common Voice的DVoice平台(https://dvoice.ma和https://dvoice.sn)用于从社区收集真实录音,以及通过迁移学习技术自动标注从社交媒体获取的录音。DVoice平台目前管理7种语言,包括本版本中出现的Darija(摩洛哥阿拉伯方言)、沃洛夫语、曼丁哥语、塞雷尔语、普拉尔语、迪奥拉语和索宁克语。
AIOX Labs和SI2M实验室携手合作,共同构建未来技术。
关于AIOX Labs
AIOX-Labs总部位于拉巴特、伦敦和巴黎,致力于运用人工智能技术满足企业的业务需求和数据项目。
- 服务于集团增长、流程优化或客户体验提升。
- AIOX-Labs跨足多个领域,从金融科技到工业,包括零售和消费品。
- 提供具有坚实算法基础并可适应客户特定需求的商业就绪数据产品。
- 团队由人工智能博士和业务专家组成,具备坚实的科学基础和国际化发表背景。
网站:https://www.aiox-labs.com/
SI2M实验室
信息系统、智能系统和数学建模研究实验室(SI2M)是国立统计与应用经济学院(INSEA)的学术研究实验室。实验室的研究领域包括信息系统、智能系统、人工智能、决策支持、网络与系统安全以及数学建模。
网站:SI2M实验室
关于SpeechBrain
SpeechBrain是一个开源的一体化语音工具包,设计简洁、高度灵活且用户友好。在多个领域实现了具有竞争力或最先进的性能。
网站:https://speechbrain.github.io/
GitHub:https://github.com/speechbrain/speechbrain
引用SpeechBrain
@misc{SB2021,
author = {Ravanelli, Mirco and Parcollet, Titouan and Rouhe, Aku and Plantinga, Peter and Rastorgueva, Elena and Lugosch, Loren and Dawalatabad, Nauman and Ju-Chieh, Chou and Heba, Abdel and Grondin, Francois and Aris, William and Liao, Chien-Feng and Cornell, Samuele and Yeh, Sung-Lin and Na, Hwidong and Gao, Yan and Fu, Szu-Wei and Subakan, Cem and De Mori, Renato and Bengio, Yoshua },
title = {SpeechBrain},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\\\\url{https://github.com/speechbrain/speechbrain}},
}
致谢
本研究得到了CNRST(摩洛哥)提供的HPC-MARWAN(www.marwan.ma/hpc)计算资源支持。我们深表感谢。