stt_fr_fastconformer_hybrid_large_pc开源法语语音识别模型

首页

Stt Fr Fastconformer Hybrid Large Pc

由 nvidia 开发

这是一个法语自动语音识别模型，基于FastConformer架构，结合了Transducer和CTC解码器，具有高准确率和多领域适应性。

语音识别

PyTorch

法语#法语语音识别 #混合Transducer-CTC #多领域高精度

下载量 1,331

发布时间 : 5/23/2023

模型简介

该模型能够转录包含大小写法语字母、空格、句号、逗号和问号的语音。是FastConformer Transducer-CTC模型的'大型'版本，约1.15亿参数。

模型特点

混合训练

结合Transducer和CTC两种损失函数进行训练，提高模型鲁棒性

优化架构

采用FastConformer架构，具有8倍深度可分离卷积下采样，效率更高

多数据集训练

在1800小时法语语音数据上训练，包括MCV12、MLS和Voxpopuli数据集

标点支持

支持转录包含句号、逗号和问号的文本

模型能力

法语语音识别

标点符号识别

大小写识别

长音频处理

使用案例

语音转录

会议记录

将法语会议录音转换为文字记录

WER 7.92 (MCV12测试集)

音频字幕

为法语视频内容生成字幕

WER 5.21 (MLS测试集)

语音分析

语音数据分析

分析法语语音数据中的关键词和内容

WER 6.49 (VoxPopuli测试集)

🚀 NVIDIA FastConformer-Hybrid Large (fr)

本模型可将法语语音转录为包含大小写字母、空格、句号、逗号和问号的文本。它是FastConformer Transducer - CTC的“大型”版本（约1.15亿个参数），是一个基于两种损失（Transducer（默认）和CTC）训练的混合模型。

🚀 快速开始

要训练、微调或使用该模型，你需要安装 NVIDIA NeMo。建议在安装最新版本的Pytorch后再安装它。

pip install nemo_toolkit['all']

✨ 主要特性

可转录法语语音，输出包含大小写字母及常见标点。
基于FastConformer Transducer - CTC架构，约1.15亿个参数。
混合模型，结合Transducer和CTC两种损失进行训练。

📦 安装指南

要使用该模型，需安装 NVIDIA NeMo，建议在安装最新版本的Pytorch后执行以下命令：

pip install nemo_toolkit['all']

💻 使用示例

基础用法

自动实例化模型：

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecHybridRNNTCTCBPEModel.from_pretrained(model_name="nvidia/stt_fr_fastconformer_hybrid_large_pc")

高级用法

转录单个音频文件

首先，获取一个音频样本：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然后进行转录：

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

转录多个音频文件

使用Transducer模式推理：

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_fr_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

使用CTC模式推理：

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_fr_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
 decoder_type="ctc"

📚 详细文档

输入

该模型接受16000 Hz单声道音频（wav文件）作为输入。

输出

该模型为给定的音频样本输出转录后的文本字符串。

🔧 技术细节

模型架构

FastConformer [1] 是Conformer模型的优化版本，具有8倍深度可分离卷积下采样。该模型在多任务设置中使用联合Transducer和CTC解码器损失进行训练。你可以在以下链接找到更多关于FastConformer的详细信息：Fast - Conformer Model 以及关于混合Transducer - CTC训练的信息：Hybrid Transducer - CTC。