语言:
- 英文
缩略图: 无
标签:
- 自动语音识别
- CTC
- 注意力机制
- Transformer
- Conformer
- PyTorch
- SpeechBrain
- HF-ASR排行榜
许可证: Apache-2.0
数据集:
- LargeScaleASR
评估指标:
- WER
- CER
针对25,000小时LargeScaleASR数据集的Conformer模型
本模型由三星AI剑桥中心贡献。
此仓库提供了在SpeechBrain框架内基于LargeScaleASR(英文)预训练的端到端自动语音识别系统所需的全部工具。为获得更佳体验,建议您深入了解SpeechBrain。模型性能如下:
参数量 |
验证集WER |
测试集WER |
LibriSpeech test-other |
CommonVoice 18测试集 |
Voxpopuli测试集 |
GPU配置 |
480M |
6.8 |
7.5 |
4.6 |
12.0 |
6.9 |
8xV100 32GB |
如需基于该数据集训练自定义模型,请参考SpeechBrain工具包。
流程说明
该ASR系统由两个相互关联的模块组成:
- 基于训练集文本训练的分词器(unigram),将单词转换为子词单元
- 由conformer编码器和CTC+transformer联合解码器组成的声学模型,解码过程融合了CTC概率
系统训练采用16kHz采样率(单声道)的录音。调用transcribe_file时,代码会自动对音频进行标准化处理(如重采样和单声道选择)。
安装SpeechBrain
首先执行以下命令安装:
pip install speechbrain
建议阅读官方教程以深入了解SpeechBrain。
英文音频转录示例
from speechbrain.inference.ASR import EncoderDecoderASR
asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-conformer-largescaleasr", savedir="pretrained_models/asr-conformer-largescaleasr")
asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-conformer-largescaleasr", savedir="pretrained_models/asr-conformer-largescaleasr", overrides={"test_beam_size":"1"})
asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-conformer-largescaleasr", savedir="pretrained_models/asr-conformer-largescaleasr", overrides={"scorer":None, "ctc_weight_decode":0.0})
asr_model.transcribe_file("speechbrain/asr-conformer-largescaleasr/example.wav")
GPU推理
调用from_hparams
时添加run_opts={"device":"cuda"}
参数即可启用GPU推理。
批量并行推理
参考此Colab笔记本了解如何使用预训练模型并行转录批量语句。
关于SpeechBrain
- 官网: https://speechbrain.github.io/
- 代码库: https://github.com/speechbrain/speechbrain/
- HuggingFace: https://huggingface.co/speechbrain/
引用SpeechBrain
若用于研究或商业用途,请引用:
@article{speechbrainV1,
author = {Mirco Ravanelli等},
title = {SpeechBrain 1.0:开源对话式AI},
journal = {机器学习研究期刊},
year = {2024},
volume = {25},
number = {333},
pages = {1--11},
url = {http://jmlr.org/papers/v25/24-0991.html}
}