stt_be_fastconformer_hybrid_large_pc开源模型 - 精准实现白俄罗斯语自动语音识别

首页

Stt Be Fastconformer Hybrid Large Pc

由 nvidia 开发

这是一个基于FastConformer架构的大型白俄罗斯语自动语音识别模型，结合了转换器和CTC解码器损失，在1500小时白俄罗斯语音数据上训练。

语音识别

PyTorch

其他#白俄罗斯语语音识别 #高精度WER2.72 #混合转换器-CTC

下载量 33

发布时间 : 5/19/2023

模型简介

该模型用于转录包含大小写白俄罗斯字母、空格和基本标点符号的语音，支持16kHz单声道音频输入。

模型特点

混合训练架构

同时使用转换器和CTC解码器损失进行训练，结合两种方法的优势

高效处理

采用8倍深度可分离卷积下采样的FastConformer架构，优化处理速度

高准确率

在Common Voice 12.0白俄罗斯语测试集上达到2.72%的WER（不含标点）

模型能力

白俄罗斯语语音识别

音频转录

标点符号预测

使用案例

语音转录

语音转文字

将白俄罗斯语语音内容转换为文本

准确率高达97.28%（不含标点）

语音助手

语音指令识别

用于白俄罗斯语语音助手系统中的命令识别

🚀 NVIDIA FastConformer-Hybrid Large (be)

本模型可将语音转录为大小写白俄罗斯语字母，同时支持空格、句号、逗号和问号。它是FastConformer Transducer - CTC的“大型”版本（约1.15亿参数），是一个基于两种损失（Transducer（默认）和CTC）训练的混合模型。欲了解完整的架构细节，请参阅模型架构部分和NeMo文档。

| | |

🚀 快速开始

本部分将介绍如何安装必要的工具包以及如何使用该模型进行语音转录。

安装NVIDIA NeMo

若要训练、微调或使用该模型，你需要安装 NVIDIA NeMo。建议在安装最新版本的Pytorch之后再安装它。

pip install nemo_toolkit['all']

使用模型进行语音转录

自动实例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecHybridRNNTCTCBPEModel.from_pretrained(model_name="nvidia/stt_be_fastconformer_hybrid_large_pc")

使用Python进行转录

首先，获取一个音频样本：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然后，进行转录：

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

转录多个音频文件

使用Transducer模式推理：

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_be_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

使用CTC模式推理：

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_be_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
 decoder_type="ctc"

✨ 主要特性

语言支持：能够处理白俄罗斯语语音，转录结果包含大小写字母、空格、句号、逗号和问号。
模型架构：采用FastConformer Transducer - CTC架构，约1.15亿参数，是一个混合模型，基于Transducer和CTC两种损失进行训练。
多任务训练：在多任务设置下进行训练，结合了联合Transducer和CTC解码器损失。

📦 安装指南

若要训练、微调或使用该模型，需安装 NVIDIA NeMo。建议在安装最新版本的Pytorch之后再安装它。

pip install nemo_toolkit['all']

💻 使用示例

基础用法

自动实例化模型：

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecHybridRNNTCTCBPEModel.from_pretrained(model_name="nvidia/stt_be_fastconformer_hybrid_large_pc")

高级用法

转录单个音频文件

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecHybridRNNTCTCBPEModel.from_pretrained(model_name="nvidia/stt_be_fastconformer_hybrid_large_pc")
output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

转录多个音频文件

使用Transducer模式推理：

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_be_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

使用CTC模式推理：

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_be_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
 decoder_type="ctc"

📚 详细文档

输入

本模型接受16000 Hz单声道音频（wav文件）作为输入。

输出

本模型为给定的音频样本提供转录后的语音字符串。

模型架构

FastConformer [1] 是Conformer模型的优化版本，具有8倍深度可分离卷积下采样。该模型在多任务设置下进行训练，结合了联合Transducer和CTC解码器损失。你可以在以下链接找到关于FastConformer的更多详细信息：Fast - Conformer Model 以及关于混合Transducer - CTC训练的信息：Hybrid Transducer - CTC。