S

Stt En Fastconformer Transducer Large

由 nvidia 开发
这是一个基于FastConformer架构的大型自动语音识别(ASR)模型,专门用于将英语语音转录为文本。
下载量 1,398
发布时间 : 6/8/2023
模型介绍
内容详情
替代品

模型简介

该模型采用优化的FastConformer架构和Transducer解码器,能够高效准确地将英语语音转换为文本。

模型特点

优化的FastConformer架构
采用8倍深度可分离卷积下采样,相比标准Conformer模型更高效
多数据集训练
在包含数千小时英语语音的综合数据集上训练,覆盖多种语音场景
高性能
在多个标准测试集上表现出色,如LibriSpeech测试集WER低至1.8%
易于使用
提供简单的Python API进行语音转录,支持批量处理

模型能力

英语语音识别
音频转录
批量语音处理

使用案例

语音转录
会议记录
将会议录音自动转录为文字记录
媒体字幕生成
为视频和播客内容自动生成字幕
语音分析
客服对话分析
转录和分析客服电话内容