C

Convtasnet Libri3Mix Sepclean 16k

由 JorisCos 开发
基于Asteroid框架训练的ConvTasNet模型,用于语音分离任务,在Libri3Mix数据集上训练,支持16kHz采样率的音频输入。
下载量 48
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是一个音频到音频的转换模型,专门用于从混合音频中分离出干净的语音信号。

模型特点

高效的语音分离
能够在混合音频中有效分离出多个说话者的语音信号。
优化的ConvTasNet架构
采用优化的ConvTasNet架构,具有8个块和3次重复,提供高效的音频处理能力。
高质量分离结果
在Libri3Mix测试集上实现了较高的SI-SDR和SDR提升,表明分离效果显著。

模型能力

多说话者语音分离
音频信号增强
16kHz音频处理

使用案例

语音处理
会议记录增强
在多人同时说话的会议录音中分离出单个说话者的语音,提高语音识别准确率。
SI-SDR提升12.3,SDR提升12.77
语音信号去混响
从嘈杂的环境中分离出干净的语音信号,改善语音质量。
STOI提升0.255