A

Asr Streaming Conformer Librispeech

由 speechbrain 开发
这是一个基于LibriSpeech数据集预训练的端到端自动语音识别系统,支持流式和非流式模式,适用于英文语音识别。
下载量 304
发布时间 : 2/15/2024
模型介绍
内容详情
替代品

模型简介

该模型使用康福默架构和RNN-T损失训练,支持动态块训练以实现流式转录,在LibriSpeech测试集上表现出色。

模型特点

流式与非流式支持
支持动态块训练,可在不同块大小下工作,平衡延迟和准确性
高性能识别
在LibriSpeech测试干净集上达到2.72%的词错误率
动态块卷积
实现动态块卷积技术,统一流式和非流式处理

模型能力

英文语音识别
实时流式转录
离线音频文件转录

使用案例

语音转文字
实时会议记录
用于实时转录会议或讲座内容
在960ms块大小下达到3.13%词错误率
音频文件转录
将预录制的英文音频文件转换为文字
在完整上下文模式下达到2.72%词错误率