stt_de_conformer_transducer_large开源模型 - 免费部署实现德语语音精准转录文本

首页

Stt De Conformer Transducer Large

由 nvidia 开发

这是一个用于德语自动语音识别的大型Conformer-Transducer模型，具有约1.2亿参数，支持将德语语音转录为文本。

语音识别

PyTorch

德语#德语语音识别 #Conformer架构 #大规模预训练

下载量 66

发布时间 : 6/28/2022

模型简介

该模型将德语语音转录为小写字母及空格，采用Conformer-Transducer架构，在多个德语语音数据集上训练。

模型特点

高性能语音识别

在Common Voice 7.0德语测试集上达到4.93%的词错误率(WER)

大规模训练数据

在包含数千小时德语语音的复合数据集上训练

先进架构

采用Conformer-Transducer架构，结合了卷积和注意力机制的优势

模型能力

德语语音识别

音频转录

自动语音转文本

使用案例

语音转写

德语语音转录

将德语语音内容自动转录为文本

高准确率的转录结果

语音助手

德语语音命令识别

用于德语语音助手中的命令识别

🚀 NVIDIA Conformer-Transducer Large (de)

该模型是用于德语自动语音识别的大型模型，基于Conformer-Transducer架构，在多个德语语音数据集上进行训练，能以较低的词错误率完成语音转录任务。

🚀 快速开始

本模型可用于德语语音的自动识别任务，以下是使用该模型的基本步骤和示例代码。

✨ 主要特性

架构先进：采用Conformer-Transducer架构，结合了卷积和Transformer的优势，适用于自动语音识别任务。
多数据集训练：在多个德语语音数据集上进行训练，包括VoxPopuli、Multilingual Librispeech和Mozilla Common Voice等，提升了模型的泛化能力。
低词错误率：在多个测试集上取得了较低的词错误率（WER），如在common-voice-7-0测试集上WER为4.93，在Multilingual LibriSpeech测试集上WER为3.85。

📦 安装指南

要训练、微调或使用该模型，需要安装NVIDIA NeMo库。建议在安装最新版本的PyTorch之后进行安装。

pip install nemo_toolkit['all']

💻 使用示例

基础用法

自动实例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("nvidia/stt_de_conformer_transducer_large")

高级用法

单音频文件转录

首先，获取一个音频样本

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然后进行转录

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

多音频文件转录

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_de_conformer_transducer_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"