S

Stt En Citrinet 1024 Gamma 0 25

由 nvidia 开发
NVIDIA流式Citrinet 1024是一个用于英语自动语音识别的非自回归模型,基于CTC损失/解码,拥有约1.4亿参数。
下载量 156
发布时间 : 6/24/2022
模型介绍
内容详情
替代品

模型简介

该模型用于转录包含空格和撇号的小写英语字母语音,训练数据包含数千小时的英语语音。它是流式Citrinet的'大型'非自回归变体。

模型特点

流式处理能力
支持流式语音识别,适合实时应用场景
高性能
在多个标准测试集上表现优异,如LibriSpeech测试集上WER仅为3.4-7.6
大规模训练数据
基于数千小时的英语语音数据训练,包括LibriSpeech、Fisher等多个数据集
Riva兼容
可与NVIDIA Riva集成,用于生产级服务器部署

模型能力

英语语音识别
实时语音转录
批量音频处理

使用案例

语音转文字
会议记录
将会议录音自动转换为文字记录
高准确率的转录结果
字幕生成
为视频内容自动生成英文字幕
支持批量处理音频文件
语音助手
语音指令识别
用于智能设备的语音指令识别系统
低延迟的实时识别