语言: "英文"
缩略图:
标签:
- 语音大脑
- 嵌入向量
- 声音
- 关键词
- 关键词识别
- PyTorch
- ECAPA-TDNN
- TDNN
- 指令识别
- 音频分类
许可证: "Apache-2.0"
数据集:
- 城市声音8k
评估指标:
- 准确率
基于ECAPA嵌入的城市声音8k声音识别
本仓库提供了使用SpeechBrain进行声音识别的所有必要工具,模型已在UrbanSound8k数据集上预训练。您可以从这里下载数据集。该系统能够识别以下10个关键词:
狗吠声、儿童玩耍声、空调声、街头音乐声、枪声、警笛声、引擎怠速声、电钻声、钻孔声、汽车喇叭声
为了获得更好的体验,我们建议您了解更多关于SpeechBrain的信息。该模型在测试集上的性能如下:
发布版本 |
准确率(1折)(%) |
2021-04-06 |
75.5 |
流程描述
该系统由ECAPA模型结合统计池化组成。在模型顶部应用了一个分类器,使用分类交叉熵损失进行训练。
安装SpeechBrain
首先,请使用以下命令安装SpeechBrain:
pip install speechbrain
请注意,我们鼓励您阅读我们的教程,了解更多关于SpeechBrain的信息。
进行声音识别
import torchaudio
from speechbrain.inference.classifiers import EncoderClassifier
classifier = EncoderClassifier.from_hparams(source="speechbrain/urbansound8k_ecapa", savedir="pretrained_models/gurbansound8k_ecapa")
out_prob, score, index, text_lab = classifier.classify_file('speechbrain/urbansound8k_ecapa/dog_bark.wav')
print(text_lab)
该系统使用16kHz(单声道)采样的录音进行训练。在调用classify_file时,代码会自动对音频进行归一化处理(如重采样和单声道选择)。如果使用encode_batch和classify_batch,请确保输入张量符合预期的采样率。
GPU推理
要在GPU上进行推理,调用from_hparams
方法时添加run_opts={"device":"cuda"}
。
训练
该模型使用SpeechBrain(8cab8b0c)训练。从头开始训练的步骤如下:
- 克隆SpeechBrain:
git clone https://github.com/speechbrain/speechbrain/
- 安装:
cd speechbrain
pip install -r requirements.txt
pip install -e .
- 运行训练:
cd recipes/UrbanSound8k/SoundClassification
python train.py hparams/train_ecapa_tdnn.yaml --data_folder=your_data_folder
您可以在这里找到我们的训练结果(模型、日志等)。
局限性
SpeechBrain团队不对该模型在其他数据集上的性能提供任何保证。
引用ECAPA
author = {Brecht Desplanques and
Jenthe Thienpondt and
Kris Demuynck},
editor = {Helen Meng and
Bo Xu and
Thomas Fang Zheng},
title = {{ECAPA-TDNN:} Emphasized Channel Attention, Propagation and Aggregation
in {TDNN} Based Speaker Verification},
booktitle = {Interspeech 2020},
pages = {3830--3834},
publisher = {{ISCA}},
year = {2020},
}
引用UrbanSound
Author = {Salamon, J. and Jacoby, C. and Bello, J. P.},
Booktitle = {22nd {ACM} International Conference on Multimedia (ACM-MM'14)},
Month = {Nov.},
Pages = {1041--1044},
Title = {A Dataset and Taxonomy for Urban Sound Research},
Year = {2014}}