Parakeet CTC 0.6B开源自动语音识别模型 - 免费实现英语语音转录

首页

Parakeet Ctc 0.6b

由 nvidia 开发

Parakeet CTC 0.6B是由NVIDIA NeMo和Suno.ai联合开发的自动语音识别模型，基于FastConformer架构，拥有约6亿参数，支持英语语音转录。

语音识别

PyTorch

英语#大词汇量语音识别 #多领域适配 #FastConformer架构

下载量 6,528

发布时间 : 12/28/2023

模型简介

该模型是一个高性能的自动语音识别系统，能够将英语语音准确转录为文本，适用于多种语音识别场景。

模型特点

高性能语音识别

基于FastConformer架构优化，具有8倍深度可分离卷积下采样，提供高效的语音识别能力。

大规模训练数据

在64K小时的英语语音数据上训练，包括多个公共和私有数据集，覆盖多种语音场景。

低词错误率

在多个测试集上表现出色，如LibriSpeech测试集上WER低至1.87%。

模型能力

英语语音识别

音频转录

支持16kHz单声道音频输入

使用案例

语音转录

会议记录

自动转录会议录音，提高会议记录效率。

在AMI会议测试集上WER为16.3%

语音转文字

将语音内容转换为可编辑的文本格式。

在LibriSpeech测试集上WER为1.87%-3.76%

语音分析

语音内容分析

分析语音内容，提取关键信息。

在多个测试集上表现优异

🚀 Parakeet CTC 0.6B (en)

parakeet-ctc-0.6b 是一个自动语音识别（ASR）模型，可将语音转录为小写英文字母。该模型由 NVIDIA NeMo 和 Suno.ai 团队联合开发，是 FastConformer CTC [1] 的 XL 版本（约 6 亿个参数）。有关完整的架构细节，请参阅模型架构部分和 NeMo 文档。

🚀 快速开始

安装 NVIDIA NeMo

要训练、微调或使用该模型，你需要安装 NVIDIA NeMo。建议在安装最新版本的 PyTorch 后再安装它。

pip install nemo_toolkit['all']

使用模型

该模型可在 NeMo 工具包 [3] 中使用，可作为预训练检查点进行推理或在其他数据集上进行微调。

自动实例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained(model_name="nvidia/parakeet-ctc-0.6b")

使用 Python 进行转录

首先，获取一个示例音频文件：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然后，简单地执行以下操作：

asr_model.transcribe(['2086-149220-0033.wav'])

转录多个音频文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/parakeet-ctc-0.6b" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

输入

该模型接受 16000 Hz 的单声道音频（wav 文件）作为输入。

输出

该模型为给定的音频样本提供转录后的语音字符串。

✨ 主要特性

先进架构：基于 FastConformer [1] 架构，这是 Conformer 模型的优化版本，具有 8 倍深度可分离卷积下采样，并使用 CTC 损失进行训练。
多领域训练：在多个公共数据集和私有数据集上进行训练，涵盖了 64K 小时的英语语音，使其在不同领域的音频转录中表现出色。
高性能：在多个基准测试中表现良好，具有较低的词错误率（WER）。

📦 安装指南

要使用该模型，需要安装 NVIDIA NeMo 工具包。建议在安装最新版本的 PyTorch 后执行以下命令：

pip install nemo_toolkit['all']

💻 使用示例

基础用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained(model_name="nvidia/parakeet-ctc-0.6b")

高级用法

转录单个音频文件

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained(model_name="nvidia/parakeet-ctc-0.6b")
# 获取示例音频文件
import os
os.system("wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav")
# 转录音频文件
result = asr_model.transcribe(['2086-149220-0033.wav'])
print(result)

转录多个音频文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/parakeet-ctc-0.6b" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"