S

Stt En Fastconformer Ctc Xlarge

由 nvidia 开发
NVIDIA FastConformer-CTC XLarge是一个约6亿参数的自动语音识别(ASR)模型,专为英语语音转录设计,采用FastConformer架构和CTC损失训练。
下载量 216
发布时间 : 6/12/2023
模型介绍
内容详情
替代品

模型简介

该模型能够将英语语音转录为小写字母文本,在多个公开数据集上表现出色,适用于通用音频转录任务。

模型特点

优化的FastConformer架构
采用8倍深度可分离卷积下采样,相比标准Conformer模型有显著优化
多数据集训练
在包含数千小时英语语音的复合数据集上训练,覆盖多种领域和口音
高性能表现
在LibriSpeech测试集上达到1.8% (clean)和3.65% (other)的词错误率

模型能力

英语语音识别
音频转录
支持16kHz单声道音频输入

使用案例

语音转录
会议记录
将会议录音自动转录为文字记录
高准确率的转录结果
语音笔记
将语音笔记转换为可搜索的文本
辅助技术
实时字幕生成
为视频或直播内容生成实时字幕