S

Sepformer Wham

由 speechbrain 开发
这是一个基于SepFormer架构的音频源分离模型,在WHAM!数据集上训练,能够分离混合音频中的不同声源。
下载量 1,828
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型使用Transformer架构实现音频源分离,特别适用于处理带有环境噪声的混合语音信号。

模型特点

高性能分离
在WHAM!测试集上达到16.3 dB SI-SNRi和16.7 dB SDRi的分离性能
环境噪声处理
专门针对带有环境噪声的混合语音信号优化
基于Transformer
采用先进的SepFormer架构,利用注意力机制实现高效分离

模型能力

音频源分离
语音分离
噪声环境语音处理

使用案例

语音处理
会议录音分离
从多人会议录音中分离出单个说话人的声音
提高语音识别准确率
噪声环境语音增强
从带有背景噪声的录音中提取清晰语音
改善语音质量和可懂度