wav2vec2-2-bert-large-no-adapter开源ASR模型 - 免费将英语语音精准转文本

Wav2vec2 2 Bert Large No Adapter

由 speech-seq2seq 开发

基于LibriSpeech数据集训练的自动语音识别(ASR)模型，用于将英语语音转换为文本

下载量 15

发布时间 : 3/2/2022

模型简介

该模型是一个自动语音识别系统，专门针对英语语音设计，能够将语音信号转换为对应的文本内容。

高准确率

在LibriSpeech评估集上取得了1.7858的词错误率

端到端训练

模型从原始语音数据到文本输出的完整流程进行端到端训练

优化训练

使用Adam优化器和线性学习率调度器进行精细调优

英语语音识别

连续语音转文本

大规模语音数据处理

语音转录

有声书转录

将有声读物内容自动转录为文本格式

准确率可达98.2%以上

会议记录

实时或事后将会议录音转换为文字记录

辅助技术

听力辅助

为听力障碍者提供实时字幕服务

训练损失	轮数	步数	验证损失	字错率（Wer）
6.6487	0.28	500	6.8354	1.4719
6.5662	0.56	1000	6.7877	0.9371
6.4309	0.84	1500	6.7640	1.1317
6.7123	1.12	2000	6.7907	1.9354
6.7547	1.4	2500	6.7830	1.8854
6.6726	1.68	3000	6.8211	1.9203
6.6538	1.96	3500	6.8444	1.8235
6.5693	2.24	4000	6.8873	1.8606
6.7234	2.52	4500	6.8649	1.8126
6.5104	2.8	5000	6.9251	1.7858