asr-wav2vec2-dvoice-amharic开源模型 - 精准实现阿姆哈拉语自动语音识别

首页

Asr Wav2vec2 Dvoice Amharic

由 speechbrain 开发

这是一个针对阿姆哈拉语的自动语音识别模型，使用wav2vec 2.0架构和CTC/Attention机制训练

语音识别

PyTorch

其他开源协议:Apache-2.0 #非洲语言识别 #低资源语音处理 #wav2vec2微调

下载量 96

发布时间 : 6/9/2022

模型简介

该模型是一个端到端的自动语音识别系统，专门用于阿姆哈拉语的语音转录任务。它结合了预训练的wav2vec 2.0模型和CTC解码器，在DVoice阿姆哈拉语数据集上进行了微调。

模型特点

预训练模型微调

基于facebook/wav2vec2-large-xlsr-53预训练模型进行微调，提高了对阿姆哈拉语的识别能力

端到端系统

提供完整的端到端解决方案，包括分词器和声学模型

多平台支持

支持CPU和GPU推理，可灵活部署在不同硬件环境

模型能力

阿姆哈拉语语音识别

音频转录

语音转文本

使用案例

语音转录

阿姆哈拉语语音转录

将阿姆哈拉语语音转换为文本

验证集CER 6.71%，WER 25.50%

语音助手

阿姆哈拉语语音助手

构建支持阿姆哈拉语的语音交互系统

🚀 wav2vec 2.0 with CTC/Attention trained on DVoice Amharic (No LM)

本仓库提供了所有必要的工具，用于在 SpeechBrain 中基于一个在 ALFFA 阿姆哈拉语数据集上预训练的端到端系统执行自动语音识别。为了获得更好的体验，我们鼓励您进一步了解 SpeechBrain。

🚀 快速开始

本仓库提供了在 SpeechBrain 中基于预训练的端到端系统进行自动语音识别的工具。若想获得更好的体验，建议您深入了解 SpeechBrain。

✨ 主要特性

提供在阿姆哈拉语数据集上预训练的端到端自动语音识别系统。
系统由分词器（unigram）和声学模型（wav2vec2.0 + CTC）组成。
代码会在调用 transcribe_file 时自动对音频进行归一化处理（重采样 + 单声道选择）。

📦 安装指南

首先，请使用以下命令安装 transformers 和 SpeechBrain：

pip install speechbrain transformers

请注意，我们建议您阅读 SpeechBrain 教程，进一步了解 SpeechBrain。

💻 使用示例

基础用法

from speechbrain.inference.ASR import EncoderASR
asr_model = EncoderASR.from_hparams(source="speechbrain/asr-wav2vec2-dvoice-amharic", savedir="pretrained_models/asr-wav2vec2-dvoice-amharic")
asr_model.transcribe_file('speechbrain/asr-wav2vec2-dvoice-amharic/example_amharic.wav')

高级用法

若要在 GPU 上进行推理，在调用 from_hparams 方法时添加 run_opts={"device":"cuda"}：

from speechbrain.inference.ASR import EncoderASR
asr_model = EncoderASR.from_hparams(source="speechbrain/asr-wav2vec2-dvoice-amharic", savedir="pretrained_models/asr-wav2vec2-dvoice-amharic", run_opts={"device":"cuda"})
asr_model.transcribe_file('speechbrain/asr-wav2vec2-dvoice-amharic/example_amharic.wav')

📚 详细文档

管道描述

此自动语音识别系统由两个不同但相互关联的模块组成：

分词器（unigram）：将单词转换为子词单元，并使用训练转录数据进行训练。
声学模型（wav2vec2.0 + CTC）：将预训练的 wav2vec 2.0 模型（facebook/wav2vec2-large-xlsr-53）与两个深度神经网络层相结合，并在达里贾语数据集上进行微调。最终得到的声学表示将输入到 CTC 贪心解码器中。系统使用采样率为 16kHz（单声道）的录音进行训练。代码在调用 transcribe_file 时会自动对音频进行归一化处理（重采样 + 单声道选择）。

训练

该模型使用 SpeechBrain 进行训练。若要从头开始训练，请按照以下步骤操作：

克隆 SpeechBrain：

git clone https://github.com/speechbrain/speechbrain/

安装：

cd speechbrain
pip install -r requirements.txt
pip install -e .

运行训练：

cd recipes/DVoice/ASR/CTC
python train_with_wav2vec2.py hparams/train_amh_with_wav2vec.yaml --data_folder=/localscratch/ALFFA_PUBLIC/ASR/AMHARIC/data/

您可以在此处找到我们的训练结果（模型、日志等）。

局限性

SpeechBrain 团队不保证该模型在其他数据集上的性能。

关于 DVoice

DVoice 是一个社区倡议项目，旨在为非洲低资源语言提供数据和模型，以促进语音技术的应用。由于这些语言的数据匮乏，需要采用特定的方法来收集数据。目前采用了两种不同的方法：基于 Mozilla Common Voice 的 DVoice 平台（https://dvoice.ma 和 https://dvoice.sn），用于从社区收集真实录音；以及迁移学习技术，用于自动标注从社交媒体获取的录音。DVoice 平台目前管理着 7 种语言，包括达里贾语（摩洛哥阿拉伯语方言），其数据集在本版本中有所体现，还有沃洛夫语、曼丁哥语、塞雷尔语、富拉语、迪奥拉语和索宁克语。

关于 AIOX Labs

AIOX-Labs 总部位于拉巴特、伦敦和巴黎，致力于运用人工智能技术满足企业的业务需求和数据项目。

助力企业发展、优化流程或提升客户体验。
业务涵盖多个领域，从金融科技到工业，包括零售和消费品。
提供具有坚实算法基础且可根据每个客户特定需求进行调整的数据产品。
拥有一支由人工智能博士和商业专家组成的互补团队，具有坚实的科学基础和国际出版物。网站：https://www.aiox-labs.com/

SI2M 实验室

信息系统、智能系统和数学建模研究实验室（SI2M）是国家统计与应用经济研究所（INSEA）的一个学术研究实验室。该实验室的研究领域包括信息系统、智能系统、人工智能、决策支持、网络与系统安全以及数学建模。网站：SI2M Laboratory

关于 SpeechBrain

SpeechBrain 是一个开源的一体化语音工具包。它设计简单、极其灵活且用户友好，在多个领域取得了有竞争力或领先的性能。网站：https://speechbrain.github.io/ GitHub：https://github.com/speechbrain/speechbrain

🔧 技术细节

评估指标

DVoice 版本	验证集字符错误率（CER）	验证集词错误率（WER）	测试集字符错误率（CER）	测试集词错误率（WER）
v2.0	6.71	25.50	6.57	24.92

引用

@misc{SB2021,
    author = {Ravanelli, Mirco and Parcollet, Titouan and Rouhe, Aku and Plantinga, Peter and Rastorgueva, Elena and Lugosch, Loren and Dawalatabad, Nauman and Ju-Chieh, Chou and Heba, Abdel and Grondin, Francois and Aris, William and Liao, Chien-Feng and Cornell, Samuele and Yeh, Sung-Lin and Na, Hwidong and Gao, Yan and Fu, Szu-Wei and Subakan, Cem and De Mori, Renato and Bengio, Yoshua },
    title = {SpeechBrain},
    year = {2021},
    publisher = {GitHub},
    journal = {GitHub repository},
    howpublished = {\\\\url{https://github.com/speechbrain/speechbrain}},
  }