S

Stt En Fastconformer Hybrid Large Streaming Multi

由 nvidia 开发
支持多前瞻窗口的缓存感知FastConformer-Hybrid大模型,专为流式自动语音识别设计,可适应多种延迟场景
下载量 1,400
发布时间 : 10/5/2023
模型介绍
内容详情
替代品

模型简介

基于大规模英语语音训练的流式自动语音识别模型,采用混合FastConformer架构,支持灵活延迟调整

模型特点

多延迟流式处理
支持0ms/80ms/480ms/1040ms四种延迟级别,实际延迟约为标称值一半
混合架构
结合Transducer与CTC解码器的优势,支持运行时切换解码策略
缓存感知技术
采用先进缓存机制实现流式处理,保持离线与流式模式预测一致性
大规模训练数据
基于数千小时多样化英语语音数据训练,覆盖多种场景和口音

模型能力

实时语音转文字
流式音频处理
低延迟语音识别
多场景语音转录

使用案例

实时转录
会议实时字幕
为在线会议提供低延迟实时字幕
480ms延迟下WER 5.7%
客服语音分析
实时转录音频对话用于质检分析
支持动态调整延迟满足不同场景需求
媒体处理
视频字幕生成
为媒体内容自动生成高精度字幕
1040ms模式下WER 5.4%