标签:
- espnet
- 音频
- 自动语音识别
语言: 英文
数据集:
- mini-an4
许可证: cc-by-4.0
ESPnet2 ASR预训练模型
kamo-naoyuki/mini_an4_asr_train_raw_bpe_valid.acc.best
♻️ 从 https://zenodo.org/record/3957940#.YN7zwJozZH4 导入
该模型由kan-bayashi使用espnet中的jsut/tts1配方训练而成。
演示:如何在ESPnet2中使用
引用ESPnet
@inproceedings{watanabe2018espnet,
作者={渡边慎治、堀孝明、刈田茂树、林友树、西户场次郎、海野裕也、Nelson {Enrique Yalta Soplin}、Jahn Heymann、Matthew Wiesner、陈南新、Adithya Renduchintala、落合翼},
标题={{ESPnet}: 端到端语音处理工具包},
年份={2018},
会议名称={Interspeech会议论文集},
页码={2207--2211},
DOI={10.21437/Interspeech.2018-1456},
网址={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
标题={{Espnet-TTS}: 统一、可复现且可集成的开源端到端文本转语音工具包},
作者={林友树、山本龙一、井上克树、吉村健、渡边慎治、户田智基、武田和也、张宇、谭旭},
会议名称={IEEE国际声学、语音与信号处理会议(ICASSP)},
页码={7654--7658},
年份={2020},
组织={IEEE}
}
或arXiv:
@misc{watanabe2018espnet,
title={ESPnet: 端到端语音处理工具包},
作者={渡边慎治、堀孝明、刈田茂树、林友树、西户场次郎、海野裕也、Nelson Enrique Yalta Soplin、Jahn Heymann、Matthew Wiesner、陈南新、Adithya Renduchintala、落合翼},
年份={2018},
eprint={1804.00015},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
训练配置
完整配置见config.yaml
配置: null
打印配置: false
日志级别: INFO
试运行: false
迭代器类型: sequence
输出目录: exp/asr_train_raw_bpe
GPU数量: 1
随机种子: 0
工作线程数: 1
注意力绘图数: 3
分布式后端: nccl
分布式初始化方法: env://
分布式世界大小: null
分布式排名: null
本地排名: 0
分布式主地址: null
分布式主端口: null
分布式启动器: null
多进程分布式: false
启用cudnn: true
cudnn基准测试: false
cudnn确定性: true