wavlm-libri-clean-100h-base开源自动语音识别模型 - 精准识别让语音处理更轻松

Wavlm Libri Clean 100h Base

由 patrickvonplaten 开发

基于microsoft/wavlm-base在LIBRISPEECH_ASR - CLEAN数据集上微调的自动语音识别模型

下载量 6,515

发布时间 : 3/2/2022

模型简介

该模型是针对英语语音识别任务优化的WavLM基础版本，在100小时干净语音数据上进行了微调，具有较低的词错误率。

高效微调

在100小时干净语音数据上进行微调，显著提升了基础模型的识别准确率

低词错误率

在评估集上取得了0.0675的词错误率(WER)，表现优异

多GPU训练

采用8个GPU进行分布式训练，提高了训练效率

英语语音识别

连续语音转文本

高准确率转录

语音转录

会议记录自动生成

将会议录音自动转换为文字记录

准确率约93.25%（基于WER 0.0675计算）

播客内容索引

为音频播客节目生成可搜索的文字内容

辅助技术

实时字幕生成

为视频或直播内容提供实时字幕

属性	详情
学习率（learning_rate）	0.0003
训练批次大小（train_batch_size）	4
评估批次大小（eval_batch_size）	4
随机种子（seed）	42
分布式类型（distributed_type）	多GPU（multi - GPU）
设备数量（num_devices）	8
总训练批次大小（total_train_batch_size）	32
总评估批次大小（total_eval_batch_size）	32
优化器（optimizer）	Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型（lr_scheduler_type）	线性（linear）
学习率调度器热身步数（lr_scheduler_warmup_steps）	500
训练轮数（num_epochs）	3.0
混合精度训练（mixed_precision_training）	原生自动混合精度（Native AMP）

训练损失值（Training Loss）	轮数（Epoch）	步数（Step）	验证损失值（Validation Loss）	字错率（Wer）
2.8805	0.34	300	2.8686	1.0
0.2459	0.67	600	0.1858	0.1554
0.1114	1.01	900	0.1379	0.1191
0.0867	1.35	1200	0.1130	0.0961
0.0698	1.68	1500	0.1032	0.0877
0.0663	2.02	1800	0.0959	0.0785
0.0451	2.35	2100	0.0887	0.0748
0.0392	2.69	2400	0.0859	0.0698