S

Stt En Fastconformer Transducer Xlarge

由 nvidia 开发
NVIDIA FastConformer-Transducer 是一个用于英语自动语音识别(ASR)的高性能模型,采用优化的FastConformer架构和Transducer解码器,参数规模约6.18亿。
下载量 106
发布时间 : 6/12/2023
模型介绍
内容详情
替代品

模型简介

该模型将语音转录为小写英文字母,是FastConformer Transducer模型的'超大'版本,在多个英语语音数据集上训练,具有优异的识别准确率。

模型特点

优化的FastConformer架构
采用8倍深度可分离卷积下采样的优化Conformer架构,提高处理效率
多数据集训练
在包含数千小时英语语音的复合数据集上训练,涵盖多种语音场景
高准确率
在多个测试集上表现优异,如LibriSpeech测试集WER低至1.64%
Transducer解码器
使用RNNT损失在多任务设置中训练,提高识别效果

模型能力

英语语音识别
音频转录
语音转文本

使用案例

语音转录
会议记录
将会议录音自动转录为文字记录
高准确率的文字记录,WER低至1.64%
语音助手
为语音助手提供语音识别能力
支持多种语音场景的准确识别
媒体处理
视频字幕生成
自动为视频内容生成字幕
支持多种口音和语音风格的识别