S

Sepformer Wham16k Enhancement

由 speechbrain 开发
这是一个使用SepFormer架构的语音增强模型,专门用于去除音频中的噪声和混响,在WHAM!数据集上以16kHz采样频率训练。
下载量 5,140
发布时间 : 6/30/2022
模型介绍
内容详情
替代品

模型简介

该模型基于Transformer架构的SepFormer实现,主要用于语音增强任务,能够有效去除音频中的环境噪声和混响效果。

模型特点

高效去噪
能够有效去除音频中的环境噪声和混响效果
基于Transformer架构
采用先进的SepFormer架构,结合自注意力机制进行语音分离
16kHz高采样率
支持16kHz采样频率的音频处理,提供更高质量的音频增强效果

模型能力

音频去噪
语音增强
混响消除

使用案例

音频处理
语音增强
对含有环境噪声的语音进行清晰度增强
SI-SNR提升至14.3dB,PESQ达到2.20
会议录音处理
去除会议录音中的背景噪声和房间混响