A

Asr Streaming Conformer Gigaspeech

由 speechbrain 开发
基于GigaSpeech数据集预训练的英文自动语音识别模型,支持流式和非流式转录
下载量 66
发布时间 : 11/6/2024
模型介绍
内容详情
替代品

模型简介

这是一个使用Conformer架构和RNN-T损失训练的端到端自动语音识别系统,支持动态分块训练以实现流式转录功能。

模型特点

流式支持
支持动态分块训练,可在不同分块大小下进行流式转录
高性能
在GigaSpeech测试集上达到11.00%的词错误率(非流式模式)
灵活配置
可根据需求在延迟和准确性之间进行权衡调整
多场景适用
支持离线转录和实时流式转录两种模式

模型能力

英语语音识别
实时流式转录
离线批量转录
动态分块处理

使用案例

语音转录
实时语音转文字
用于实时会议记录或直播字幕生成
在960ms分块大小下达到11.53%词错误率
音频文件转录
批量处理音频文件转换为文字
非流式模式下达到11.00%词错误率