M

Mtl Mimic Voicebank

由 speechbrain 开发
基于SpeechBrain的语音增强与鲁棒性ASR训练系统,采用模仿损失训练策略
下载量 11.11k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型通过三阶段训练流程实现语音增强和自动语音识别(ASR),支持16kHz单通道音频处理,包含预训练感知模型、增强模型训练和ASR微调模块

模型特点

模仿损失训练
采用三阶段训练策略,通过预训练感知模型引导增强模型学习
联合优化
增强模型与ASR模型可独立或联合使用,提升系统灵活性
标准化处理
自动处理16kHz单通道音频,支持重采样和单声道转换

模型能力

语音增强
噪声抑制
鲁棒性语音识别
音频特征提取

使用案例

语音通信
嘈杂环境语音增强
在背景噪声环境中提升语音清晰度
PESQ 3.05 / COVL 3.74(测试集)
语音识别
噪声环境ASR
提高噪声环境下的语音识别准确率
WER 2.80(测试集)