标签:
- espnet
- 音频
- 音频到音频
语言:
数据集:
- chime4
许可证: cc-by-4.0
ESPnet2 语音增强模型
espnet/Wangyou_Zhang_chime4_enh_train_enh_conv_tasnet_raw
此模型由张望友使用 espnet 中的 chime4 配方训练而成。
演示:如何在 ESPnet2 中使用
cd espnet
pip install -e .
cd egs2/chime4/enh1
./run.sh --skip_data_prep false --skip_train true --download_model espnet/Wangyou_Zhang_chime4_enh_train_enh_conv_tasnet_raw
语音增强配置
展开
配置: conf/tuning/train_enh_conv_tasnet.yaml
打印配置: false
日志级别: INFO
空运行: false
迭代器类型: chunk
输出目录: exp/enh_train_enh_conv_tasnet_raw
GPU数量: 1
随机种子: 0
工作线程数: 4
注意力绘图数: 3
分布式后端: nccl
分布式初始化方法: env://
分布式世界大小: 2
分布式排名: 0
本地排名: 0
分布式主地址: localhost
分布式主端口: 57680
分布式启动器: null
多进程分布式: true
启用cudnn: true
cudnn基准测试: false
cudnn确定性: true
收集统计信息: false
写入收集的特征: false
最大训练轮数: 100
耐心值: 4
验证调度器标准:
- valid
- loss
早停标准:
- valid
- loss
- min
最佳模型标准:
- - valid
- si_snr
- max
- - valid
- loss
- min
保留最佳模型数: 1
梯度裁剪: 5.0
梯度裁剪类型: 2.0
梯度噪声: false
梯度累积: 1
不进行前向传播: false
恢复训练: true
训练数据类型: float32
使用自动混合精度: false
日志间隔: null
未使用参数: false
使用TensorBoard: true
使用WandB: false
WandB项目: null
WandB ID: null
预训练路径: null
初始化参数: []
冻结参数: []
每轮迭代次数: null
批量大小: 8
验证批量大小: null
批量分箱: 1000000
验证批量分箱: null
训练形状文件:
- exp/enh_stats_16k/train/speech_mix_shape
- exp/enh_stats_16k/train/speech_ref1_shape
验证形状文件:
- exp/enh_stats_16k/valid/speech_mix_shape
- exp/enh_stats_16k/valid/speech_ref1_shape
批量类型: folded
验证批量类型: null
折叠长度:
- 80000
- 80000
批内排序: descending
批量排序: descending
多迭代器: false
分块长度: 32000
分块移动比例: 0.5
缓存分块数: 1024
训练数据路径、名称和类型:
- - dump/raw/tr05_simu_isolated_1ch_track/wav.scp
- speech_mix
- sound
- - dump/raw/tr05_simu_isolated_1ch_track/spk1.scp
- speech_ref1
- sound
验证数据路径、名称和类型:
- - dump/raw/dt05_simu_isolated_1ch_track/wav.scp
- speech_mix
- sound
- - dump/raw/dt05_simu_isolated_1ch_track/spk1.scp
- speech_ref1
- sound
允许可变数据键: false
最大缓存大小: 0.0
最大缓存文件描述符: 32
验证最大缓存大小: null
优化器: adam
优化器配置:
学习率: 0.001
epsilon: 1.0e-08
权重衰减: 1.0e-05
调度器: reducelronplateau
调度器配置:
模式: min
因子: 0.5
耐心: 3
初始化: xavier_uniform
模型配置:
损失类型: si_snr
使用预处理器: false
编码器: conv
编码器配置:
通道数: 256
卷积核大小: 20
步长: 10
分离器: tcn
分离器配置:
说话人数: 1
层数: 8
堆叠数: 4
瓶颈维度: 256
隐藏维度: 512
卷积核: 3
因果性: false
归一化类型: gLN
非线性: relu
解码器: conv
解码器配置:
通道数: 256
卷积核大小: 20
步长: 10
必需项:
- output_dir
版本: 0.9.7
分布式: true
引用 ESPnet
@inproceedings{watanabe2018espnet,
作者={渡边慎治 and 堀贵明 and 苅田茂树 and 林知己 and 西户场次郎 and 海野雄也 and Nelson Yalta and Jahn Heymann and Matthew Wiesner and 陈南新 and Adithya Renduchintala and 落合翼},
标题={{ESPnet}: 端到端语音处理工具包},
年份={2018},
书籍标题={Interspeech会议论文集},
页码={2207--2211},
doi={10.21437/Interspeech.2018-1456},
url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{li2021espnetse,
标题={{ESPnet-SE}: 专为ASR集成设计的端到端语音增强与分离工具包},
作者={李晨达 and 石晶 and 张望友 and Aswin Shanmugam Subramanian and 常轩凯 and 加茂直之 and 平元基 and 林知己 and Christoph Boeddeker and 陈卓 and 渡边慎治},
书籍标题={IEEE口语语言技术研讨会(SLT)论文集},
页码={785--792},
年份={2021},
}
或 arXiv:
@misc{watanabe2018espnet,
标题={ESPnet: 端到端语音处理工具包},
作者={渡边慎治 and 堀贵明 and 苅田茂树 and 林知己 and 西户场次郎 and 海野雄也 and Nelson Yalta and Jahn Heymann and Matthew Wiesner and 陈南新 and Adithya Renduchintala and 落合翼},
年份={2018},
eprint={1804.00015},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@inproceedings{li2021espnetse,
标题={{ESPnet-SE}: 专为ASR集成设计的端到端语音增强与分离工具包},
作者={李晨达 and 石晶 and 张望友 and Aswin Shanmugam Subramanian and 常轩凯 and 加茂直之 and 平元基 and 林知己 and Christoph Boeddeker and 陈卓 and 渡边慎治},
年份={2020},
eprint={2011.03706},
archivePrefix={arXiv},
primaryClass={eess.AS}
}