S

Stt En Conformer Transducer Xlarge

由 nvidia 开发
这是一个由NVIDIA开发的自动语音识别(ASR)模型,基于Conformer-Transducer架构,拥有约6亿参数,专门用于英语语音转录。
下载量 496
发布时间 : 6/13/2022
模型介绍
内容详情
替代品

模型简介

该模型将语音转录为小写英文字母,包括空格和撇号,是Conformer-Transducer模型的'超大'版本。

模型特点

高性能语音识别
在多个测试集上表现出色,如LibriSpeech clean测试集WER仅为1.62
大规模训练数据
在包含数千小时英语语音的复合数据集(NeMo ASRSET)上训练
支持多种音频格式
接受16KHz单声道音频(wav文件)作为输入

模型能力

英语语音识别
音频转录
自动语音转文本

使用案例

语音转录
会议记录
将会议录音自动转录为文字记录
高准确率的转录结果
语音笔记转换
将语音备忘录转换为可搜索的文本
语音助手
语音命令识别
用于智能设备的语音命令识别系统