sepformer-dns4-16k-enhancement开源语音增强模型

首页

Sepformer Dns4 16k Enhancement

由 speechbrain 开发

这是一个基于SepFormer架构的语音增强模型，专门用于去噪任务，在微软DNS-4数据集上训练，支持16kHz采样频率的音频处理。

音频增强

PyTorch

支持多种语言开源协议:Apache-2.0 #语音降噪 #实时增强 #多语言支持

下载量 1,669

发布时间 : 8/6/2023

模型简介

该模型使用SepFormer架构实现语音增强功能，主要用于去除音频中的背景噪声，提高语音质量。模型在1300小时的微软DNS 4数据集上训练，适用于16kHz采样频率的音频。

模型特点

高性能去噪

在DNS4 2022基线开发集上表现出色，DNSMOS SIG得分2.999，BAK得分3.076，OVRL得分2.437

多语言支持

支持包括英文、德文、俄文、法文、意大利文和西班牙文在内的多种语言

基于Transformer架构

采用先进的SepFormer架构，结合Transformer的优势进行语音分离和增强

模型能力

音频去噪

语音质量增强

背景噪声抑制

使用案例

语音通信

VoIP通话增强

提高网络语音通话质量，减少背景噪声干扰

显著改善通话清晰度

音频后期处理

录音去噪

对现场录音进行降噪处理，提高语音可懂度

提升录音质量，使语音更清晰

🚀 SepFormer语音增强模型

本项目提供了使用基于SpeechBrain实现的SepFormer模型进行语音增强（去噪）的工具。该模型在16k采样频率的1300小时Microsoft-DNS 4数据集上进行训练。为了获得更好的体验，建议你进一步了解SpeechBrain。

🚀 快速开始

本仓库提供了使用基于SpeechBrain实现的SepFormer模型进行语音增强（去噪）所需的所有工具。该模型在16k采样频率的1300小时Microsoft - DNS 4数据集上进行训练。为了获得更好的体验，我们建议你进一步了解SpeechBrain。在DNS4 2022基线开发集上使用DNSMOS进行的评估结果如下：

版本	SIG	BAK	OVRL
08 - 01 - 23	2.999	3.076	2.437

DNSMOS（深度噪声抑制平均意见得分）是一种非侵入式评估指标，它计算三个得分：SIG（语音质量）、BAK（背景噪声质量）和OVRL（整体质量），得分范围为1到5，5表示最佳质量。

✨ 主要特性

支持多种语言，包括英语、德语、俄语、法语、意大利语和西班牙语。
适用于音频到音频的语音增强任务。
基于SepFormer模型，在Microsoft DNS - 4数据集上训练。
使用SpeechBrain框架实现，便于使用和扩展。

📦 安装指南

首先，请使用以下命令安装SpeechBrain：

pip install speechbrain

💻 使用示例

基础用法

from speechbrain.inference.separation import SepformerSeparation as separator
import torchaudio

model = separator.from_hparams(source="speechbrain/sepformer-dns4-16k-enhancement", savedir='pretrained_models/sepformer-dns4-16k-enhancement')

# 若要处理自定义文件，请更改路径
est_sources = model.separate_file(path='speechbrain/sepformer-dns4-16k-enhancement/example_dns4-16k.wav') 

torchaudio.save("enhanced_dns4-16k.wav", est_sources[:, :, 0].detach().cpu(), 16000)

高级用法

若要在GPU上进行推理，请在调用from_hparams方法时添加 run_opts={"device":"cuda"}。

📚 详细文档

模型信息

属性	详情
模型类型	SepFormer
训练数据	Microsoft - DNS 4数据集（16k采样频率，1300小时）
评估指标	SI - SNR、PESQ、SIG、BAK、OVRL

评估结果

模型在DNS4 2022基线开发集上的评估结果如下：

任务	数据集	语言	SIG	BAK	OVRL
语音增强	DNS - 4	德语	2.999	3.076	2.437

引用信息

引用SpeechBrain

@misc{speechbrain,
  title={{SpeechBrain}: A General-Purpose Speech Toolkit},
  author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
  year={2021},
  eprint={2106.04624},
  archivePrefix={arXiv},
  primaryClass={eess.AS},
  note={arXiv:2106.04624}
}

引用SepFormer

@inproceedings{subakan2021attention,
      title={Attention is All You Need in Speech Separation}, 
      author={Cem Subakan and Mirco Ravanelli and Samuele Cornell and Mirko Bronzi and Jianyuan Zhong},
      year={2021},
      booktitle={ICASSP 2021}
}

引用ICASSP 2022深度噪声抑制挑战

@inproceedings{dubey2022icassp,
  title={ICASSP 2022 Deep Noise Suppression Challenge},
  author={Dubey, Harishchandra and Gopal, Vishak and Cutler, Ross and Matusevych, Sergiy and Braun, Sebastian and Eskimez, Emre Sefik and Thakker, Manthan and Yoshioka, Takuya and Gamper, Hannes and Aichner, Robert},
  booktitle={ICASSP},
  year={2022}
}