P

Parakeet Tdt Ctc 1.1b

由 nvidia 开发
Parakeet TDT-CTC 1.1B 是一个自动语音识别模型,能够转录带有标点和大小写的英文语音,由NVIDIA NeMo和Suno.ai联合开发。
下载量 35.19k
发布时间 : 5/7/2024
模型介绍
内容详情
替代品

模型简介

该模型是一个Hybrid FastConformer TDT-CTC架构的自动语音识别模型,能够高效处理长达11小时的音频转录任务。

模型特点

高效长音频处理
能够一次性转录长达11小时的音频,在A100上转录90分钟音频仅需不到16秒。
高精度转录
在多个测试数据集上表现出色,如LibriSpeech测试集上WER低至1.82%。
标点和大小写支持
能够自动识别并添加标点符号和正确的大小写格式。

模型能力

英语语音识别
长音频转录
标点自动添加
大小写自动识别

使用案例

语音转录
会议记录
自动转录商务会议内容
在AMI会议测试集上WER为15.94%
学术讲座记录
转录大学讲座或学术演讲
在TEDLIUM-v3测试集上WER为3.87%
媒体内容处理
播客转录
将播客内容自动转为文字
在Vox Populi测试集上WER为6.19%
影视字幕生成
为影视内容生成字幕
在LibriSpeech测试集上WER低至1.82%