语言:
- 英语
缩略图: 无
管道标签: 自动语音识别
标签:
- 自动语音识别
- CTC
- 注意力机制
- Transformer
- PyTorch
- SpeechBrain
- HF-ASR排行榜
许可证: Apache-2.0
数据集:
- LibriSpeech
评估指标:
- 词错误率(WER)
- 字错误率(CER)
模型索引:
- 名称: SpeechBrain的wav2vec2+CTC模型
结果:
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: LibriSpeech (干净)
类型: librispeech_asr
配置: clean
分割: test
参数:
语言: en
指标:
- 名称: 测试WER
类型: wer
值: 1.90
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: LibriSpeech (其他)
类型: librispeech_asr
配置: other
分割: test
参数:
语言: en
指标:
- 名称: 测试WER
类型: wer
值: 3.96
基于LibriSpeech训练的wav2vec 2.0与CTC模型
本仓库提供了一套完整的工具,用于在SpeechBrain框架下执行基于LibriSpeech(英语)预训练的端到端自动语音识别系统。为了获得更好的体验,我们建议您深入了解SpeechBrain。
该模型的性能如下:
发布日期 |
测试干净集WER |
测试其他集WER |
使用的GPU |
2022-03-24 |
1.90 |
3.96 |
1xA100 40GB |
流程描述
该ASR系统由两个相互关联的模块组成:
- 分词器(unigram):将单词转换为字符,基于训练文本(英文)训练。
- 声学模型(wav2vec2.0 + CTC):结合预训练的wav2vec 2.0模型(wav2vec2-large-960h-lv60-self)与两个DNN层,并在LibriSpeech上微调。最终的声学表征通过CTC处理。
系统训练采用16kHz采样率(单声道)的录音。调用transcribe_file时,代码会自动对音频进行标准化处理(如重采样和单声道选择)。
安装SpeechBrain
首先,请通过以下命令安装transformers和SpeechBrain:
pip install speechbrain transformers
请注意,我们建议您阅读我们的教程以了解更多关于SpeechBrain的信息。
转录您自己的音频文件(英文)
from speechbrain.inference.ASR import EncoderASR
asr_model = EncoderASR.from_hparams(source="speechbrain/asr-wav2vec2-librispeech", savedir="pretrained_models/asr-wav2vec2-librispeech")
asr_model.transcribe_file("speechbrain/asr-wav2vec2-commonvoice-en/example.wav")
GPU推理
要在GPU上进行推理,调用from_hparams
方法时添加run_opts={"device":"cuda"}
参数。
批量并行推理
请参考此Colab笔记本,了解如何使用预训练模型并行转录一批输入句子。
训练
该模型使用SpeechBrain训练。从头开始训练的步骤如下:
- 克隆SpeechBrain:
git clone https://github.com/speechbrain/speechbrain/
- 安装:
cd speechbrain
pip install -r requirements.txt
pip install -e .
- 运行训练:
cd recipes/LibriSpeech/ASR/CTC
python train_with_wav2vec.py hparams/train_en_with_wav2vec.yaml --data_folder=your_data_folder
训练结果(模型、日志等)可在此处查看。
限制
SpeechBrain团队不对该模型在其他数据集上的表现提供任何保证。
关于SpeechBrain
- 官网: https://speechbrain.github.io/
- 代码库: https://github.com/speechbrain/speechbrain/
- HuggingFace: https://huggingface.co/speechbrain/
引用SpeechBrain
如果您在研究中使用了SpeechBrain,请引用我们。
@misc{speechbrain,
title={{SpeechBrain}: 通用语音工具包},
author={Mirco Ravanelli等},
year={2021},
eprint={2106.04624},
archivePrefix={arXiv},
primaryClass={eess.AS},
note={arXiv:2106.04624}
}