标签:
- espnet
- 音频
- 自动语音识别
语言: en
数据集:
- librispeech
许可证: cc-by-4.0
ESPnet2 ASR 模型
espnet/simpleoier_librispeech_asr_train_asr_conformer7_wavlm_large_raw_en_bpe5000_sp
该模型由simpleoier使用espnet中的librispeech配方训练而成。
演示:如何在ESPnet2中使用
cd espnet
git checkout b0ff60946ada6753af79423a2e6063984bec2926
pip install -e .
cd egs2/librispeech/asr1
./run.sh --skip_data_prep false --skip_train true --download_model espnet/simpleoier_librispeech_asr_train_asr_conformer7_wavlm_large_raw_en_bpe5000_sp
结果
环境
- 日期:
Tue Jan 4 20:52:48 EST 2022
- Python版本:
3.7.11 (default, Jul 27 2021, 14:32:16) [GCC 7.5.0]
- espnet版本:
espnet 0.10.5a1
- pytorch版本:
pytorch 1.8.1
- Git哈希: ``
asr_train_asr_conformer7_wavlm_large_raw_en_bpe5000_sp
WER
数据集 |
句子数 |
单词数 |
正确率 |
替换错误 |
删除错误 |
插入错误 |
总错误率 |
句子错误率 |
decode_asr_lm_lm_train_lm_transformer2_en_bpe5000_valid.loss.ave_asr_model_valid.acc.ave/dev_clean |
2703 |
54402 |
98.4 |
1.4 |
0.1 |
0.2 |
1.7 |
23.1 |
decode_asr_lm_lm_train_lm_transformer2_en_bpe5000_valid.loss.ave_asr_model_valid.acc.ave/dev_other |
2864 |
50948 |
96.7 |
3.0 |
0.3 |
0.3 |
3.6 |
35.5 |
decode_asr_lm_lm_train_lm_transformer2_en_bpe5000_valid.loss.ave_asr_model_valid.acc.ave/test_clean |
2620 |
52576 |
98.4 |
1.5 |
0.1 |
0.2 |
1.8 |
23.7 |
decode_asr_lm_lm_train_lm_transformer2_en_bpe5000_valid.loss.ave_asr_model_valid.acc.ave/test_other |
2939 |
52343 |
96.7 |
3.0 |
0.3 |
0.4 |
3.7 |
37.9 |
CER
数据集 |
句子数 |
单词数 |
正确率 |
替换错误 |
删除错误 |
插入错误 |
总错误率 |
句子错误率 |
decode_asr_lm_lm_train_lm_transformer2_en_bpe5000_valid.loss.ave_asr_model_valid.acc.ave/dev_clean |
2703 |
288456 |
99.7 |
0.2 |
0.2 |
0.2 |
0.5 |
23.1 |
decode_asr_lm_lm_train_lm_transformer2_en_bpe5000_valid.loss.ave_asr_model_valid.acc.ave/dev_other |
2864 |
265951 |
98.9 |
0.6 |
0.4 |
0.4 |
1.5 |
35.5 |
decode_asr_lm_lm_train_lm_transformer2_en_bpe5000_valid.loss.ave_asr_model_valid.acc.ave/test_clean |
2620 |
281530 |
99.6 |
0.2 |
0.2 |
0.2 |
0.6 |
23.7 |
decode_asr_lm_lm_train_lm_transformer2_en_bpe5000_valid.loss.ave_asr_model_valid.acc.ave/test_other |
2939 |
272758 |
99.1 |
0.5 |
0.4 |
0.4 |
1.3 |
37.9 |
TER
数据集 |
句子数 |
单词数 |
正确率 |
替换错误 |
删除错误 |
插入错误 |
总错误率 |
句子错误率 |
decode_asr_lm_lm_train_lm_transformer2_en_bpe5000_valid.loss.ave_asr_model_valid.acc.ave/dev_clean |
2703 |
68010 |
98.2 |
1.4 |
0.4 |
0.3 |
2.1 |
23.1 |
decode_asr_lm_lm_train_lm_transformer2_en_bpe5000_valid.loss.ave_asr_model_valid.acc.ave/dev_other |
2864 |
63110 |
96.0 |
3.1 |
0.9 |
0.9 |
4.9 |
35.5 |
decode_asr_lm_lm_train_lm_transformer2_en_bpe5000_valid.loss.ave_asr_model_valid.acc.ave/test_clean |
2620 |
65818 |
98.1 |
1.4 |
0.5 |
0.4 |
2.3 |
23.7 |
decode_asr_lm_lm_train_lm_transformer2_en_bpe5000_valid.loss.ave_asr_model_valid.acc.ave/test_other |
2939 |
65101 |
96.1 |
2.9 |
1.0 |
0.8 |
4.7 |
37.9 |
ASR 配置
展开
配置: conf/tuning/train_asr_conformer7_wavlm_large.yaml
打印配置: false
日志级别: INFO
空运行: false
迭代器类型: sequence
输出目录: exp/asr_train_asr_conformer7_wavlm_large_raw_en_bpe5000_sp
GPU数量: 1
随机种子: 0
工作线程数: 1
注意力绘图数: 3
目标数量: 1
分布式后端: nccl
分布式初始化方法: env://
分布式世界大小: 2
分布式排名: 0
本地排名: 0
分布式主地址: localhost
分布式主端口: 45342
分布式启动器: null
多进程分布式: true
未使用参数: false
分片DDP: false
cudnn启用: true
cudnn基准测试: false
cudnn确定性: true
收集统计信息: false
写入收集特征: false
最大周期: 35
耐心: null
验证调度标准:
- valid
- loss
早停标准:
- valid
- loss
- min
最佳模型标准:
- - valid
- acc
- max
保留最佳模型数: 10
最佳平均间隔: 0
梯度裁剪: 5.0
梯度裁剪类型: 2.0
梯度噪声: false
累积梯度: 3
不进行前向运行: false
恢复: true
训练数据类型: float32
使用AMP: false
日志间隔: null
使用TensorBoard: true
使用WandB: false
WandB项目: null
WandB ID: null
WandB实体: null
WandB名称: null
WandB模型日志间隔: -1
检测异常: false
预训练路径: null
初始化参数: []
忽略初始化不匹配: false
冻结参数:
- frontend.upstream
每个周期的迭代次数: null
批量大小: 20
验证批量大小: null
批量箱数: 40000000
验证批量箱数: null
训练形状文件:
- exp/asr_stats_raw_en_bpe5000_sp/train/speech_shape
- exp/asr_stats_raw_en_bpe5000_sp/train/text_shape.bpe
验证形状文件:
- exp/asr_stats_raw_en_bpe5000_sp/valid/speech_shape
- exp/asr_stats_raw_en_bpe5000_sp/valid/text_shape.bpe
批量类型: numel
验证批量类型: null
折叠长度:
- 80000
- 150
批次内排序: descending
批次排序: descending
多迭代器: false
块长度: 500
块移动比例: 0.5
缓存块数: 1024
训练数据路径和名称及类型:
- - dump/raw/train_960_sp/wav.scp
- speech
- kaldi_ark
- - dump/raw/train_960_sp/text
- text
- text
验证数据路径和名称及类型:
- - dump/raw/dev/wav.scp
- speech
- kaldi_ark
- - dump/raw/dev/text
- text
- text
允许可变数据键: false
最大缓存大小: 0.0
最大缓存文件描述符: 32
验证最大缓存大小: null
优化器: adam
优化器配置:
lr: 0.0025
调度器: warmuplr
调度器配置:
warmup_steps: 40000
令牌列表:
- <blank>
- <unk>
- ▁THE
- S
- ▁AND
- ▁OF
- ▁TO
- ▁A
- ▁IN
- ▁I
- ▁HE
- ▁THAT
- ▁WAS
- ED
- ▁IT
- ''''
- ▁HIS
- ING
- ▁YOU
- ▁WITH
- ▁FOR
- ▁HAD
- T
- ▁AS
- ▁HER
- ▁IS
- ▁BE
- ▁BUT
- ▁NOT
- ▁SHE
- D
- ▁AT
- ▁ON
- LY
- ▁HIM
- ▁THEY
- ▁ALL
- ▁HAVE
- ▁BY
- ▁SO
- ▁THIS
- ▁MY
- ▁WHICH
- ▁ME
- ▁SAID
- ▁FROM
- ▁ONE
- Y
- E
- ▁WERE
- ▁WE
- ▁NO
- N
- ▁THERE
- ▁OR
- ER
- ▁AN
- ▁WHEN
- ▁ARE
- ▁THEIR
- ▁WOULD
- ▁IF
- ▁WHAT
- ▁THEM
- ▁WHO
- ▁OUT
- M
- ▁DO
- ▁WILL
- ▁UP
- ▁BEEN
- P
- R
- ▁MAN
- ▁THEN
- ▁COULD
- ▁MORE
- C
- ▁INTO
- ▁NOW
- ▁VERY
- ▁YOUR
- ▁SOME
- ▁LITTLE
- ES
- ▁TIME
- RE
- ▁CAN
- ▁LIKE
- LL
- ▁ABOUT
- ▁HAS
- ▁THAN
- ▁DID
- ▁UPON
- ▁OVER
- IN
- ▁ANY
- ▁WELL
- ▁ONLY
- B
- ▁SEE
- ▁GOOD
- ▁OTHER
- ▁TWO
- L
- ▁KNOW
- ▁GO
- ▁DOWN
- ▁BEFORE
- A
- AL
- ▁OUR
- ▁OLD
- ▁SHOULD
- ▁MADE
- ▁AFTER
- ▁GREAT
- ▁DAY
- ▁MUST
- ▁COME
- ▁HOW
- ▁SUCH
- ▁CAME
- LE
- ▁WHERE
- ▁US
- ▁NEVER
- ▁THESE
- ▁MUCH
- ▁DE
- ▁MISTER
- ▁WAY
- G
- ▁S
- ▁MAY
- ATION
- ▁LONG
- OR
- ▁AM
- ▁FIRST
- ▁BACK
- ▁OWN
- ▁RE
- ▁AGAIN
- ▁SAY
- ▁MEN
- ▁WENT
- ▁HIMSELF
- ▁HERE
- NESS
- ▁THINK
- V
- IC
- ▁EVEN
- ▁THOUGHT
- ▁HAND
- ▁JUST
- ▁O
- ▁UN
- VE
- ION
- ▁ITS
- 'ON'
- ▁MAKE
- ▁MIGHT
- ▁TOO
- K
- ▁AWAY
- ▁LIFE
- TH
- ▁WITHOUT
- ST
- ▁THROUGH
- ▁MOST
- ▁TAKE
- ▁DON
- ▁EVERY
- F
- O
- ▁SHALL
- ▁THOSE
- ▁EYES
- AR
- ▁STILL
- ▁LAST
- ▁HOUSE
- ▁HEAD