语言: "达里语"
缩略图:
管道标签: 自动语音识别
标签:
- CTC
- pytorch
- speechbrain
- Transformer
许可证: "apache-2.0"
数据集:
- commonvoice
指标:
- 词错误率(WER)
- 字符错误率(CER)
基于DVoice达里语数据集训练的wav2vec 2.0 CTC/Attention模型(无语言模型)
本仓库提供了一套完整的端到端工具,用于在SpeechBrain框架下执行基于DVoice达里语数据集预训练的自动语音识别。为获得最佳体验,建议您深入了解SpeechBrain。
DVoice版本 |
验证集CER |
验证集WER |
测试集CER |
测试集WER |
v2.0 |
5.51 |
18.46 |
5.85 |
18.28 |
系统架构
该ASR系统由两个相互关联的模块组成:
- 分词器(unigram):将词语转换为子词单元,基于训练文本训练而成
- 声学模型(wav2vec2.0 + CTC):采用预训练的wav2vec 2.0模型(facebook/wav2vec2-large-xlsr-53),叠加两个DNN层后在达里语数据集上微调。最终声学表征由CTC贪婪解码器处理。系统训练采用16kHz单通道音频样本。调用transcribe_file时,代码会自动执行音频标准化(包括重采样和单声道选择)。
安装SpeechBrain
首先请安装transformers和SpeechBrain:
pip install speechbrain transformers
建议您阅读SpeechBrain教程以深入了解SpeechBrain。
达里语音频转录
from speechbrain.pretrained import EncoderASR
asr_model = EncoderASR.from_hparams(source="aioxlabs/dvoice-darija", savedir="pretrained_models/asr-wav2vec2-dvoice-dar")
asr_model.transcribe_file('./您的音频文件路径')
GPU推理
如需使用GPU推理,调用from_hparams
方法时请添加run_opts={"device":"cuda"}
参数。
训练
如需从头训练模型,请参阅我们在GitHub上的教程此处。
局限性
SpeechBrain团队不保证该模型在其他数据集上的性能表现。
引用SpeechBrain
(此处保留原引用格式)
关于DVoice
DVoice是一项社区倡议,旨在为非洲低资源语言提供语音数据和模型。针对每种语言特性,目前采用两种数据采集方式:基于Mozilla Common Voice的DVoice平台(https://dvoice.ma和https://dvoice.sn)收集真实社区录音,以及通过迁移学习技术自动标注社交媒体录音。当前平台支持7种语言,包括本版本涉及的达里语(摩洛哥阿拉伯方言)、沃洛夫语、曼丁哥语、塞雷尔语、普拉尔语、迪奥拉语和索宁克语。
AIOX Labs与SI2M实验室正携手共建技术未来。
关于AIOX Labs
总部位于拉巴特、伦敦和巴黎的AIOX-Labs致力于运用人工智能技术满足企业数据需求。
- 服务领域涵盖集团增长、流程优化和客户体验提升
- 跨行业解决方案覆盖金融科技、工业、零售和消费品
- 提供具备强大算法基础且可定制的商业级数据产品
- 团队由人工智能博士和行业专家组成,具有扎实的科研背景和国际发表经验
官网: https://www.aiox-labs.com/
SI2M实验室
信息系统、智能系统与数学建模实验室(SI2M)是INSEA国家统计与应用经济研究所的学术研究机构,研究领域涵盖信息系统、智能系统、人工智能、决策支持、网络安全和数学建模。
官网: SI2M实验室
关于SpeechBrain
SpeechBrain是开源一体化语音工具包,以简洁性、灵活性和用户友好性为设计理念,在多个领域达到竞争性或最先进的性能水平。
官网: https://speechbrain.github.io/
GitHub: https://github.com/speechbrain/speechbrain
鸣谢
本研究由摩洛哥CNRST提供的HPC-MARWAN计算资源(www.marwan.ma/hpc)支持,特此致谢。