S

Stt En Conformer Ctc Large

由 nvidia 开发
这是一个基于Conformer架构的大型自动语音识别(ASR)模型,支持英语语音转录,使用CTC损失函数进行训练。
下载量 3,740
发布时间 : 4/9/2022
模型介绍
内容详情
替代品

模型简介

该模型用于将英语语音转录为文本,支持包含空格和撇号的小写字母输出。基于Conformer架构的非自回归变体,约1.2亿参数。

模型特点

高性能语音识别
在LibriSpeech测试集上达到2.2%(干净)和4.3%(其他)的词错误率(WER)
多数据集训练
在数千小时的英语语音数据上训练,包括LibriSpeech、Fisher、Switchboard等多个数据集
Riva兼容
支持通过NVIDIA Riva进行生产级服务器部署
非自回归架构
采用Conformer-CTC架构,相比自回归模型具有更快的推理速度

模型能力

英语语音识别
实时语音转录
支持16kHz单声道音频输入

使用案例

语音转录
会议记录
将会议录音自动转录为文字记录
高准确率的转录结果,支持多种口音
字幕生成
为视频内容自动生成英文字幕
在干净语音上WER低至2.2%
语音助手
语音命令识别
用于智能家居设备的语音控制
快速准确的命令识别