语言: "dar"
缩略图:
任务标签: 自动语音识别
标签:
- CTC
- pytorch
- speechbrain
- Transformer
许可证: "apache-2.0"
数据集:
- Dvoice
评估指标:
- 词错误率(WER)
- 字错误率(CER)
基于DVoice Darija数据集训练的wav2vec 2.0 CTC/Attention模型(无语言模型)
本仓库提供了一套完整的端到端工具,用于在SpeechBrain框架下对DVoice Darija数据集预训练的自动语音识别系统进行推理。为了获得最佳体验,我们建议您深入了解SpeechBrain。
DVoice版本 |
验证集CER |
验证集WER |
测试集CER |
测试集WER |
v2.0 |
5.51 |
18.46 |
5.85 |
18.28 |
系统架构说明
该ASR系统由两个相互关联的模块组成:
- 分词器(unigram):将词语转换为子词单元,基于训练集文本训练
- 声学模型(wav2vec2.0 + CTC):采用预训练的wav2vec 2.0模型(facebook/wav2vec2-large-xlsr-53),叠加两个DNN层并在Darija数据集上微调。最终声学表征由CTC贪婪解码器处理。系统训练使用16kHz单通道音频样本。调用transcribe_file时,代码会自动执行音频标准化处理(包括重采样和单声道选择)。
安装SpeechBrain
首先请执行以下命令安装transformers和SpeechBrain:
pip install speechbrain transformers
请注意,我们强烈建议您阅读SpeechBrain教程以深入了解SpeechBrain。
Darija语音文件转录
from speechbrain.inference.ASR import EncoderASR
asr_model = EncoderASR.from_hparams(source="speechbrain/asr-wav2vec2-dvoice-darija", savedir="pretrained_models/asr-wav2vec2-dvoice-darija")
asr_model.transcribe_file('speechbrain/asr-wav2vec2-dvoice-darija/example_darija.wav')
GPU推理
如需在GPU上执行推理,调用from_hparams
方法时添加run_opts={"device":"cuda"}
参数。
训练流程
该模型使用SpeechBrain训练。从头开始训练的步骤如下:
- 克隆仓库:
git clone https://github.com/speechbrain/speechbrain/
- 安装依赖:
cd speechbrain
pip install -r requirements.txt
pip install -e .
- 启动训练:
cd recipes/DVoice/ASR/CTC
python train_with_wav2vec2.py hparams/train_dar_with_wav2vec.yaml --data_folder=/localscratch/darija/
训练结果(模型、日志等)可在此链接获取。
局限性声明
SpeechBrain团队不对该模型在其他数据集上的表现提供任何性能保证。
引用SpeechBrain
@misc{SB2021,
author = {Ravanelli, Mirco and Parcollet, Titouan and Rouhe, Aku and Plantinga, Peter and Rastorgueva, Elena and Lugosch, Loren and Dawalatabad, Nauman and Ju-Chieh, Chou and Heba, Abdel and Grondin, Francois and Aris, William and Liao, Chien-Feng and Cornell, Samuele and Yeh, Sung-Lin and Na, Hwidong and Gao, Yan and Fu, Szu-Wei and Subakan, Cem and De Mori, Renato and Bengio, Yoshua },
title = {SpeechBrain},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\\\\url{https://github.com/speechbrain/speechbrain}},
}
DVoice项目介绍
DVoice是一项社区倡议,旨在为非洲低资源语言提供语音数据和模型,促进语音技术的应用。针对这些语言数据匮乏的现状,项目采用两种创新方法:基于Mozilla Common Voice构建的DVoice平台(https://dvoice.ma和https://dvoice.sn)用于收集社区真实录音,以及通过迁移学习技术自动标注社交媒体获取的录音。当前平台支持7种语言,包括本版本涉及的Darija(摩洛哥阿拉伯语方言)、沃洛夫语、曼丁哥语、塞雷尔语、普拉尔语、迪奥拉语和索宁克语。
AIOX Labs实验室与SI2M实验室正携手共建技术未来。
AIOX Labs简介
总部位于拉巴特、伦敦和巴黎的AIOX-Labs专注于运用人工智能技术满足企业商业需求与数据项目:
- 致力于企业增长、流程优化和客户体验提升
- 跨领域服务涵盖金融科技、工业、零售和消费品行业
- 提供具备强大算法基础且可定制化的商业级数据产品
- 团队由人工智能博士与行业专家组成,具有扎实科研背景和国际发表经验
官网:https://www.aiox-labs.com/
SI2M实验室
信息系统、智能系统与数学建模研究实验室(SI2M)是隶属于摩洛哥国家统计与应用经济学院(INSEA)的学术研究机构,主要研究领域包括信息系统、智能系统、人工智能、决策支持、网络与系统安全以及数学建模。
官网:SI2M实验室
SpeechBrain简介
SpeechBrain是一个开源一体化语音工具包,以简洁性、高度灵活性和用户友好性为设计理念,在多个领域达到竞争性或最先进的性能水平。
官网:https://speechbrain.github.io/
GitHub:https://github.com/speechbrain/speechbrain
引用SpeechBrain
@misc{SB2021,
author = {Ravanelli, Mirco and Parcollet, Titouan and Rouhe, Aku and Plantinga, Peter and Rastorgueva, Elena and Lugosch, Loren and Dawalatabad, Nauman and Ju-Chieh, Chou and Heba, Abdel and Grondin, Francois and Aris, William and Liao, Chien-Feng and Cornell, Samuele and Yeh, Sung-Lin and Na, Hwidong and Gao, Yan and Fu, Szu-Wei and Subakan, Cem and De Mori, Renato and Bengio, Yoshua },
title = {SpeechBrain},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\\\\url{https://github.com/speechbrain/speechbrain}},
}
致谢
本研究得到摩洛哥国家科学技术研究中心(CNRST)提供的HPC-MARWAN计算资源(www.marwan.ma/hpc)支持,谨致深切谢意。