语言: "德语"
缩略图:
标签:
- 音频到音频
- 语音增强
- 救援语音(RescueSpeech)
- SepFormer
- 变压器(Transformer)
- PyTorch
- SpeechBrain
- 搜索与救援
许可证: "Apache-2.0"
数据集:
- 救援语音(RescueSpeech)
评估指标:
- SI-SNR(信噪比改善)
- PESQ(感知语音质量评估)
- SDR(信源失真比)
模型索引:
- 名称: rescuespeech_sepformer
结果:
- 任务:
名称: 语音增强
类型: speech-enhancement
评估指标:
- 名称: 测试PESQ
类型: pesq
值: '2.24'
- 名称: 测试SI-SNRi
类型: si-snri
值: '7.849'
- 名称: 测试SI-SDRi
类型: si-sdri
值: '8.414'
基于救援语音数据集训练的SepFormer语音增强模型(16kHz采样率)
本仓库提供使用SepFormer模型进行语音增强(去噪)所需的全部工具,该模型通过SpeechBrain实现。模型首先在Microsoft-DNS 4数据集上预训练,随后在16kHz采样率的救援语音数据集上微调。建议访问SpeechBrain官网获取更佳体验。下表展示了模型在救援语音测试集上的性能表现:
发布日期 |
测试集SI-SNR提升值 |
测试集SI-SDR提升值 |
测试集PESQ |
2023-07-01 |
7.849 |
8.414 |
2.24 |
其中SI-SNRi和SI-SDRi表示对应指标的提升幅度。
安装SpeechBrain
首先执行以下命令安装SpeechBrain:
pip install speechbrain
建议阅读官方教程以深入了解SpeechBrain。
对自定义音频文件进行语音增强
from speechbrain.inference.separation import SepformerSeparation as separator
import torchaudio
model = separator.from_hparams(source="speechbrain/rescuespeech_sepformer", savedir='pretrained_models/rescuespeech_sepformer')
enhanced_audio = model.separate_file(path='speechbrain/rescuespeech_sepformer/example_rescuespeech16k.wav')
torchaudio.save("enhanced_rescuespeech16k.wav", enhanced_audio[:, :, 0].detach().cpu(), 16000)
GPU加速推理
在调用from_hparams
方法时添加run_opts={"device":"cuda"}
参数即可启用GPU加速。
训练结果(模型、日志等)可在此处获取。
使用限制
SpeechBrain团队不对该模型在其他数据集上的表现提供任何保证。
引用SpeechBrain
@misc{speechbrain,
title={{SpeechBrain}: 通用语音工具包},
author={Mirco Ravanelli等},
year={2021},
eprint={2106.04624},
archivePrefix={arXiv},
primaryClass={eess.AS}
}
引用SepFormer
@inproceedings{subakan2021attention,
title={语音分离中的注意力机制研究},
author={Cem Subakan等},
year={2021},
booktitle={ICASSP 2021}
}
引用救援语音数据集
@misc{sagar2023rescuespeech,
title={RescueSpeech: 面向搜救领域的德语语音识别语料库},
author={Sangeet Sagar等},
year={2023},
eprint={2306.04054},
archivePrefix={arXiv},
primaryClass={eess.AS}
}
关于SpeechBrain
- 官网: https://speechbrain.github.io/
- 代码库: https://github.com/speechbrain/speechbrain/
- HuggingFace主页: https://huggingface.co/speechbrain/