S

Sepformer Whamr

由 speechbrain 开发
SepFormer是一种基于Transformer的音频源分离模型,在WHAMR!数据集上训练,用于分离混合语音信号。
下载量 1,692
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型使用SepFormer架构,专门设计用于音频源分离任务,能够从混合音频中分离出不同的语音源,特别适用于带有环境噪声和混响的场景。

模型特点

基于Transformer的分离架构
使用SepFormer架构,结合Transformer的自注意力机制,有效处理音频分离任务。
噪声和混响鲁棒性
在包含环境噪声和混响的WHAMR!数据集上训练,具有较强的噪声鲁棒性。
高性能指标
在WHAMR!测试集上达到13.7 dB SI-SNRi和12.7 dB SDRi的分离性能。

模型能力

语音分离
音频源分离
噪声抑制
混响消除

使用案例

语音增强
会议录音分离
从多人同时说话的会议录音中分离出各个说话人的单独语音
提高语音清晰度和可懂度
嘈杂环境语音分离
从带有背景噪声的录音中分离出目标语音
改善语音质量,便于后续处理
音频处理
音乐人声分离
从音乐录音中分离人声和伴奏
便于音乐制作和后期处理