stt_de_fastconformer_hybrid_large_pc开源德语语音识别模型

首页

Stt De Fastconformer Hybrid Large Pc

由 nvidia 开发

这是一个基于FastConformer架构的德语自动语音识别模型，采用转换器和CTC混合训练方式，参数规模约115M。

语音识别德语#德语语音识别 #混合CTC-转换器 #高精度WER

下载量 1,017

发布时间 : 5/4/2023

模型简介

该模型用于德语语音转录，支持大小写字母、空格及基本标点符号的识别。是NVIDIA NeMo工具包中的预训练模型。

模型特点

混合训练架构

同时使用转换器和CTC解码器进行训练，结合两种损失函数的优势

优化的FastConformer

采用8倍深度可分离卷积下采样，相比标准Conformer模型更高效

多数据集训练

在2500小时的复合德语数据集上训练，包含MCV12、MLS和Voxpopuli

标点符号支持

能够识别句号、逗号和问号等基本标点符号

模型能力

德语语音识别

标点符号识别

大小写字母识别

使用案例

语音转录

语音转文字

将德语语音内容转换为文本

在MCV12测试集上WER为5.1%

会议记录

自动生成会议语音的文字记录

语音分析

语音内容分析

为后续的语音内容分析提供文本基础

🚀 NVIDIA FastConformer-Hybrid Large (de)

该模型可用于德语语音识别，支持大小写字母、空格、句号、逗号和问号的转录。它是FastConformer Transducer - CTC的“大型”版本，约有1.15亿个参数，是一个结合了Transducer和CTC两种损失函数进行训练的混合模型。

🚀 快速开始

若要训练、微调或使用该模型，你需要安装 NVIDIA NeMo。建议在安装最新版本的Pytorch之后再安装它。

pip install nemo_toolkit['all']

✨ 主要特性

支持德语语音转录，输出包含大小写字母、空格、句号、逗号和问号。
采用FastConformer架构，是Conformer模型的优化版本，具有8倍深度可分离卷积下采样。
多任务训练，结合了Transducer和CTC解码器损失。

📦 安装指南

安装 NVIDIA NeMo：

pip install nemo_toolkit['all']

💻 使用示例

基础用法

自动实例化模型：

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecHybridRNNTCTCBPEModel.from_pretrained(model_name="nvidia/stt_de_fastconformer_hybrid_large_pc")

高级用法

用Python转录单个音频

首先，获取一个示例音频：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然后进行转录：

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

转录多个音频文件

使用Transducer模式推理：

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_de_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

使用CTC模式推理：

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_de_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
 decoder_type="ctc"

输入

该模型接受16000 Hz单声道音频（wav文件）作为输入。

输出

该模型为给定的音频样本提供转录后的语音字符串。

📚 详细文档

模型架构

FastConformer [1] 是Conformer模型的优化版本，具有8倍深度可分离卷积下采样。该模型在多任务设置中进行训练，结合了Transducer和CTC解码器损失。你可以在以下链接找到更多关于FastConformer的详细信息：Fast - Conformer Model 以及关于混合Transducer - CTC训练的信息：Hybrid Transducer - CTC。