D

Dprnntasnet Ks16 WHAM Sepclean

由 julien-c 开发
这是一个基于 Asteroid 框架训练的音频源分离模型,专门用于从混合音频中分离出干净的语音信号。
下载量 66
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型使用 DPRNNTasNet 架构,在 WHAM! 数据集的 sep_clean 任务上进行训练,能够有效分离混合音频中的语音信号。

模型特点

高效音频分离
采用 DPRNN 架构,能够高效地从混合音频中分离出干净的语音信号。
小核尺寸
使用较小的核尺寸(16),有助于捕捉更精细的音频特征。
高分离质量
在 WHAM! 数据集上表现出色,SI-SDR 提升达到 18.23 dB。

模型能力

音频源分离
语音信号提取
混合音频处理

使用案例

语音处理
语音增强
从嘈杂环境中提取清晰的语音信号
SI-SDR 提升 18.23 dB
会议记录
分离多人同时说话的音频信号