语言:
- fr
库名称: nemo
数据集:
- multilingual_librispeech
- mozilla-foundation/common_voice_7_0
- VoxPopuli
缩略图: null
标签:
- 自动语音识别
- 语音
- 音频
- 转换器
- 康福默
- 变压器
- pytorch
- NeMo
- hf-asr-leaderboard
许可证: cc-by-4.0
模型索引:
- 名称: stt_fr_conformer_transducer_large
结果:
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: MCV 7.0
类型: mozilla-foundation/common_voice_7_0
配置: fr
分割: dev
参数:
语言: fr
指标:
- 名称: 开发集 WER
类型: wer
值: 6.85
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: MCV 7.0
类型: mozilla-foundation/common_voice_7_0
配置: fr
分割: test
参数:
语言: fr
指标:
- 名称: 测试集 WER
类型: wer
值: 7.95
- 任务:
类型: 自动语音识别
名称: automatic-speech-recognition
数据集:
名称: 多语言Librispeech
类型: multilingual_librispeech
配置: fr
分割: dev
参数:
语言: fr
指标:
- 名称: 开发集 WER
类型: wer
值: 5.05
- 任务:
类型: 自动语音识别
名称: automatic-speech-recognition
数据集:
名称: 多语言Librispeech
类型: multilingual_librispeech
配置: fr
分割: test
参数:
语言: fr
指标:
- 名称: 测试集 WER
类型: wer
值: 4.1
NVIDIA康福默-转换器大型模型(法语)
|
|
| 
该模型在包含超过1500小时法语语音的复合数据集上训练而成。它是康福默-转换器的大规模版本(约1.2亿参数)。
完整架构细节请参阅模型架构部分和NeMo文档。
NVIDIA NeMo:训练
要训练、微调或使用该模型,您需要安装NVIDIA NeMo。建议在安装最新版PyTorch后安装。
pip install nemo_toolkit['all']
如何使用该模型
该模型可在NeMo工具包[3]中使用,可作为预训练检查点用于推理或在其他数据集上进行微调。
自动实例化模型
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("nvidia/stt_fr_conformer_transducer_large")
使用Python转录
首先,获取一个样本
wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav
然后简单执行:
output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)
转录多个音频文件
python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py
pretrained_name="nvidia/stt_fr_conformer_transducer_large"
audio_dir="<包含音频文件的目录>"
输入
该模型接受16 kHz单声道音频(wav文件)作为输入。
输出
该模型为给定音频样本提供转录后的语音字符串。
模型架构
康福默-转换器模型是康福默模型[1]的自回归变体,用于自动语音识别,使用转换器损失/解码而非CTC损失。更多详细信息请参阅:康福默-转换器模型。
训练
使用NeMo工具包[3]对模型进行了数百个epoch的训练。这些模型使用此示例脚本和此基础配置进行训练。
这些模型的句子片段分词器[2]是使用训练集的文本转录通过此脚本构建的。
数据集
本系列中的所有模型均在包含超过一千小时法语语音的复合数据集(NeMo ASRSET)上训练:
- MozillaCommonVoice 7.0 - 356小时
- 多语言LibriSpeech - 1036小时
- VoxPopuli - 182小时
两个模型使用相同的数据集,但第二个模型的训练数据预处理步骤中移除了连字符。
性能
自动语音识别模型的性能使用词错误率衡量。由于该模型在多个领域和更大的语料库上训练,通常在一般音频转录中表现更好。
最新模型在以下评估数据集上获得以下贪婪分数:
- MCV7.0开发集上6.85%
- MCV7.0测试集上7.95%
- MLS开发集上5.05%
- MLS测试集上4.10%
注意,这些评估数据集已过滤和预处理,仅包含法语字母字符,并移除了连字符和撇号以外的标点符号。
限制
由于该模型在公开可用的语音数据集上训练,对于包含技术术语或模型未训练过的方言的语音,其性能可能会下降。对于带口音的语音,模型表现也可能较差。
此外,由于训练集部分包含1990年正字法改革前后的文本,两种风格的标点符号规律性可能不同。
对于需要更高一致性的下游任务,可能需要进行微调或下游处理。如果不需要精确的正字法,建议使用第二个模型。
参考文献