S

Sepformer Whamr16k

由 speechbrain 开发
这是一个基于SepFormer架构的音频源分离模型,在WHAMR!数据集上训练,适用于16kHz采样率的音频信号分离。
下载量 4,702
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型使用SpeechBrain实现,专门用于从混合音频中分离出不同的音频源,特别是在包含环境噪声和混响的场景下。

模型特点

高效音频分离
能够从包含环境噪声和混响的混合音频中有效分离出不同的音频源。
基于Transformer架构
采用SepFormer架构,利用Transformer的自注意力机制提升分离性能。
16kHz采样率支持
专门针对16kHz采样率的音频信号优化,适合多种实际应用场景。

模型能力

音频源分离
语音分离
噪声抑制

使用案例

语音处理
会议录音分离
从多人会议录音中分离出各个发言人的单独语音信号。
在WHAMR!测试集上达到13.5 dB SI-SNRi的性能。
噪声环境语音增强
从嘈杂环境中提取清晰的语音信号。
在包含环境噪声和混响的数据集上表现良好。