S

Simpleoier Librispeech Asr Train Asr Conformer7 Wavlm Large Raw En Bpe5000 Sp

由 espnet 开发
基于ESPnet框架训练的自动语音识别(ASR)模型,使用Conformer架构和WavLM大型预训练模型,在LibriSpeech数据集上训练。
下载量 66
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是一个高性能的英语自动语音识别系统,专为处理原始音频输入并转换为文本而设计。

模型特点

高性能架构
结合Conformer7和WavLM大型预训练模型,提供卓越的语音识别能力
LibriSpeech训练
在广泛使用的LibriSpeech数据集上训练,确保模型在多种语音条件下的鲁棒性
低错误率
在测试集上表现出色,词错误率(WER)在干净语音上低至1.8%,在嘈杂语音上为3.7%

模型能力

英语语音识别
原始音频处理
大规模语音转文本

使用案例

语音转录
会议记录
自动转录会议录音
准确率高达98.4%(测试集clean数据)
音频字幕生成
为播客或视频内容生成字幕
在嘈杂语音环境下仍保持96.7%准确率
语音助手
语音命令识别
识别和执行语音命令