语言: "达里语"
缩略图:
任务标签: 自动语音识别
标签:
- CTC
- pytorch
- speechbrain
- Transformer
许可证: "apache-2.0"
数据集:
- Dvoice
评估指标:
- 词错误率(WER)
- 字错误率(CER)
基于DVoice阿姆哈拉语训练的wav2vec 2.0 CTC/Attention模型(无语言模型)
本仓库提供了一套完整的端到端工具,用于在SpeechBrain框架下使用ALFFA阿姆哈拉语数据集预训练的自动语音识别系统。建议访问SpeechBrain官网以获得最佳体验。
DVoice版本 |
验证集CER |
验证集WER |
测试集CER |
测试集WER |
v2.0 |
6.71 |
25.50 |
6.57 |
24.92 |
系统架构
该ASR系统由两个相互关联的模块组成:
- 分词器(unigram):将词语转换为子词单元,基于训练文本训练而成
- 声学模型(wav2vec2.0 + CTC):结合预训练的wav2vec 2.0模型(facebook/wav2vec2-large-xlsr-53)与两个DNN层,并在达里语数据集上微调。最终声学表征由CTC贪婪解码器处理。系统训练采用16kHz单通道音频样本,调用transcribe_file时会自动进行音频标准化(重采样+单声道选择)。
安装SpeechBrain
请先执行以下命令安装依赖:
pip install speechbrain transformers
建议阅读SpeechBrain教程以深入了解框架特性。
阿姆哈拉语音频转录
from speechbrain.inference.ASR import EncoderASR
asr_model = EncoderASR.from_hparams(source="speechbrain/asr-wav2vec2-dvoice-amharic", savedir="pretrained_models/asr-wav2vec2-dvoice-amharic")
asr_model.transcribe_file('speechbrain/asr-wav2vec2-dvoice-amharic/example_amharic.wav')
GPU加速推理
在调用from_hparams
方法时添加run_opts={"device":"cuda"}
参数即可启用GPU加速。
训练流程
该模型基于SpeechBrain训练,完整复现步骤如下:
- 克隆仓库:
git clone https://github.com/speechbrain/speechbrain/
- 安装依赖:
cd speechbrain
pip install -r requirements.txt
pip install -e .
- 启动训练:
cd recipes/DVoice/ASR/CTC
python train_with_wav2vec2.py hparams/train_amh_with_wav2vec.yaml --data_folder=/localscratch/ALFFA_PUBLIC/ASR/AMHARIC/data/
训练结果(模型/日志等)详见Google Drive。
使用限制
SpeechBrain团队不对该模型在其他数据集上的表现作任何保证。
DVoice项目介绍
DVoice是旨在为非洲低资源语言提供语音数据和模型的社区计划,通过两种方式收集数据:基于Mozilla Common Voice的DVoice平台(https://dvoice.ma和https://dvoice.sn)收集真实录音,以及通过迁移学习技术自动标注社交媒体音频。当前支持7种语言,包括本版本包含的达里语(摩洛哥阿拉伯方言)、沃洛夫语、曼丁哥语、塞雷尔语、普拉尔语、迪奥拉语和索宁克语。
AIOX实验室与SI2M实验室正携手共建技术未来。
AIOX实验室
总部位于拉巴特、伦敦和巴黎的AIOX-Labs运用AI技术满足企业数据需求,业务涵盖:
- 集团增长、流程优化和客户体验提升
- 跨行业解决方案(金融科技/工业/零售等)
- 具备扎实算法基础的可定制数据产品
- 由AI博士与商业专家组成的复合团队
官网: https://www.aiox-labs.com/
SI2M实验室
隶属于INSEA学院的学术研究实验室,专注:
- 信息系统/智能系统/人工智能
- 决策支持/网络安全/数学建模
官网: SI2M实验室
SpeechBrain简介
开源一体化语音工具包,以简单灵活、用户友好为设计理念,在多领域达到竞争性性能。
官网: https://speechbrain.github.io/
GitHub: https://github.com/speechbrain/speechbrain
引用格式
@misc{SB2021,
author = {Ravanelli, Mirco and Parcollet, Titouan and Rouhe, Aku and Plantinga, Peter and Rastorgueva, Elena and Lugosch, Loren and Dawalatabad, Nauman and Ju-Chieh, Chou and Heba, Abdel and Grondin, Francois and Aris, William and Liao, Chien-Feng and Cornell, Samuele and Yeh, Sung-Lin and Na, Hwidong and Gao, Yan and Fu, Szu-Wei and Subakan, Cem and De Mori, Renato and Bengio, Yoshua },
title = {SpeechBrain},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\\\\url{https://github.com/speechbrain/speechbrain}},
}
致谢
本研究使用了摩洛哥CNRST提供的HPC-MARWAN计算资源(www.marwan.ma/hpc),特此致谢。