P

Parakeet Ctc 0.6b

由 nvidia 开发
Parakeet CTC 0.6B是由NVIDIA NeMo和Suno.ai联合开发的自动语音识别模型,基于FastConformer架构,拥有约6亿参数,支持英语语音转录。
下载量 6,528
发布时间 : 12/28/2023
模型介绍
内容详情
替代品

模型简介

该模型是一个高性能的自动语音识别系统,能够将英语语音准确转录为文本,适用于多种语音识别场景。

模型特点

高性能语音识别
基于FastConformer架构优化,具有8倍深度可分离卷积下采样,提供高效的语音识别能力。
大规模训练数据
在64K小时的英语语音数据上训练,包括多个公共和私有数据集,覆盖多种语音场景。
低词错误率
在多个测试集上表现出色,如LibriSpeech测试集上WER低至1.87%。

模型能力

英语语音识别
音频转录
支持16kHz单声道音频输入

使用案例

语音转录
会议记录
自动转录会议录音,提高会议记录效率。
在AMI会议测试集上WER为16.3%
语音转文字
将语音内容转换为可编辑的文本格式。
在LibriSpeech测试集上WER为1.87%-3.76%
语音分析
语音内容分析
分析语音内容,提取关键信息。
在多个测试集上表现优异