Parakeet Tdt Ctc 110m_分类| AIbase模型库

首页

Parakeet Tdt Ctc 110m

由 nvidia 开发

由NVIDIA NeMo和Suno.ai联合开发的英语语音识别模型，支持标点符号和大小写转换，采用FastConformer-TDT-CTC架构

语音识别

PyTorch

英语#长音频转录 #高精度ASR #实时语音识别

下载量 50.47k

发布时间 : 9/17/2024

模型简介

这是一个能够转写带标点符号和大小写的英语语音的自动语音识别(ASR)模型，基于混合FastConformer TDT-CTC架构，参数规模约1.14亿

模型特点

高效长音频处理

采用全注意力机制的fastconformer架构，可单次处理长达20分钟的音频

快速推理速度

在A100上平均RTFx约为5300，实现超快推理速度

标点符号和大小写转换

能够转写带标点符号和大小写的英语语音

大规模训练数据

使用36,000小时英语语音数据训练，包含私有和公开数据集

模型能力

英语语音识别

标点符号转换

大小写转换

长音频处理

使用案例

语音转录

会议记录转录

将会议录音转换为带标点符号的文本记录

在AMI会议测试集上WER为15.88%

播客转录

将播客音频内容转换为文本

在LibriSpeech测试集上WER为2.4-5.2%

语音分析

金融收益电话会议分析

分析公司收益电话会议内容

在Earnings-22数据集上WER为12.42%

🚀 Parakeet TDT-CTC 110M PnC（英文）

Parakeet TDT-CTC 110M PnC 是一款自动语音识别（ASR）模型，能够对英文语音进行转录，并添加标点和大小写。该模型由 NVIDIA NeMo 和 Suno.ai 团队联合开发，为语音转录提供了高效且准确的解决方案。

🚀 快速开始

安装 NVIDIA NeMo

要训练、微调或使用该模型，你需要安装 NVIDIA NeMo。建议在安装最新版本的 PyTorch 之后再进行安装。

pip install nemo_toolkit['all']

使用模型

自动实例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained(model_name="nvidia/parakeet-tdt_ctc-110m")

使用 Python 进行转录

首先，获取一个示例音频文件：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然后进行转录：

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

转录多个音频文件

默认情况下，模型使用 TDT 对音频文件进行转录。若要切换解码器使用 CTC，可使用 decoding_type='ctc'。

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/parakeet-tdt_ctc-110m" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

输入

该模型接受 16000 Hz 单声道音频（wav 文件）作为输入。

输出

该模型会为给定的音频样本提供转录后的语音字符串。

✨ 主要特性

联合开发：由 NVIDIA NeMo 和 Suno.ai 团队联合开发。
架构优势：采用 Hybrid FastConformer [1] TDT-CTC [2] 架构，约有 114M 参数。使用全注意力的 fastconformer 架构进行训练，可一次性转录长达 20 分钟的音频。
快速 RTFx 值：在所有数据集上都能实现超快的 RTFx 值，在 Hugging Face 排行榜评估集的 A100 上平均 RTFx 约为 5300。

📦 安装指南

要训练、微调或使用该模型，你需要安装 NVIDIA NeMo。建议在安装最新版本的 PyTorch 之后再进行安装。

pip install nemo_toolkit['all']

💻 使用示例

基础用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained(model_name="nvidia/parakeet-tdt_ctc-110m")

# 获取示例音频文件
import os
os.system("wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav")

# 进行转录
output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

高级用法

转录多个音频文件，切换解码器使用 CTC：

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/parakeet-tdt_ctc-110m" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
 decoding_type='ctc'