P

Parakeet Tdt Ctc 110m

由 nvidia 开发
由NVIDIA NeMo和Suno.ai联合开发的英语语音识别模型,支持标点符号和大小写转换,采用FastConformer-TDT-CTC架构
下载量 50.47k
发布时间 : 9/17/2024

模型简介

这是一个能够转写带标点符号和大小写的英语语音的自动语音识别(ASR)模型,基于混合FastConformer TDT-CTC架构,参数规模约1.14亿

模型特点

高效长音频处理
采用全注意力机制的fastconformer架构,可单次处理长达20分钟的音频
快速推理速度
在A100上平均RTFx约为5300,实现超快推理速度
标点符号和大小写转换
能够转写带标点符号和大小写的英语语音
大规模训练数据
使用36,000小时英语语音数据训练,包含私有和公开数据集

模型能力

英语语音识别
标点符号转换
大小写转换
长音频处理

使用案例

语音转录
会议记录转录
将会议录音转换为带标点符号的文本记录
在AMI会议测试集上WER为15.88%
播客转录
将播客音频内容转换为文本
在LibriSpeech测试集上WER为2.4-5.2%
语音分析
金融收益电话会议分析
分析公司收益电话会议内容
在Earnings-22数据集上WER为12.42%
AIbase
智启未来,您的人工智能解决方案智库
简体中文