S

Sepformer Wsj02mix

由 speechbrain 开发
基于SepFormer架构的音频源分离模型,在WSJ0-2Mix数据集上训练,能够将混合音频分离为独立的语音源。
下载量 8,637
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型使用Transformer架构实现高质量的语音分离,适用于从混合音频中分离出多个说话人的语音信号。

模型特点

高性能分离
在WSJ0-2Mix测试集上达到22.4dB的SI-SNRi和22.6dB的SDRi
基于Transformer
采用SepFormer架构,利用注意力机制实现有效的语音分离
易于使用
提供简单的Python接口,只需几行代码即可实现音频分离

模型能力

语音分离
音频源分离
多说话人分离

使用案例

语音处理
会议记录分离
从多人会议录音中分离出各个说话人的单独音频
提高语音识别准确率,便于单独分析
音频增强
从嘈杂环境中提取清晰的语音信号
改善语音质量和可懂度