语言: fr
库名称: nemo
数据集:
- multilingual_librispeech
- mozilla-foundation/common_voice_7_0
- VoxPopuli
缩略图: null
标签:
- 自动语音识别
- 语音
- 音频
- CTC
- Conformer
- Transformer
- pytorch
- NeMo
- hf-asr-leaderboard
- Riva
许可证: cc-by-4.0
模型索引:
- 名称: stt_fr_conformer_ctc_large
结果:
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: MCV 7.0
类型: mozilla-foundation/common_voice_7_0
配置: fr
分割: dev
参数:
language: fr
指标:
- 名称: 开发集 WER
类型: wer
值: 8.35
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: MCV 7.0
类型: mozilla-foundation/common_voice_7_0
配置: fr
分割: test
参数:
language: fr
指标:
- 名称: 测试集 WER
类型: wer
值: 9.63
- 任务:
类型: 自动语音识别
名称: automatic-speech-recognition
数据集:
名称: 多语言Librispeech
类型: multilingual_librispeech
配置: fr
分割: dev
参数:
language: fr
指标:
- 名称: 开发集 WER
类型: wer
值: 5.88
- 任务:
类型: 自动语音识别
名称: automatic-speech-recognition
数据集:
名称: 多语言Librispeech
类型: multilingual_librispeech
配置: fr
分割: test
参数:
language: fr
指标:
- 名称: 测试集 WER
类型: wer
值: 4.91
NVIDIA Conformer-CTC 大模型 (法语)
|
|
|
|
|
该模型在包含超过1500小时法语语音的复合数据集上进行训练。它是一个非自回归的Conformer“大”变体,拥有约1.2亿参数。完整架构细节请参见模型架构部分和NeMo文档。同时,该模型与NVIDIA Riva兼容,可用于生产级服务器部署。
使用方式
该模型可在NeMo工具包[3]中使用,可作为预训练检查点用于推理或对其他数据集进行微调。
安装NVIDIA NeMo后即可训练、微调或使用模型。建议在安装最新版PyTorch后安装。
pip install nemo_toolkit['all']
自动实例化模型
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained("nvidia/stt_fr_conformer_ctc_large")
使用Python进行转录
首先获取示例音频:
wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav
然后执行:
output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)
批量转录音频文件
python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py
pretrained_name="nvidia/stt_fr_conformer_ctc_large"
audio_dir="<音频文件目录>"
输入
该模型接受16kHz单声道音频(wav文件)作为输入。
输出
模型会为给定音频样本提供转录文本字符串。
模型架构
Conformer-CTC模型是Conformer模型[1]的非自回归变体,用于自动语音识别,采用CTC损失/解码而非Transducer。更多细节请参阅:Conformer-CTC模型。
训练
使用NeMo工具包[3]对模型进行了数百个epoch的训练。训练脚本参见示例,基础配置参见配置文件。
模型的分词器使用训练集文本转录通过此脚本构建。
用于重评分的语言模型检查点可在此处找到。关于ASR语言模型的训练和使用,请参阅:ASR语言建模
数据集
本系列所有模型均在包含上千小时法语语音的复合数据集(NeMo ASRSET)上训练:
- MozillaCommonVoice 7.0 - 356小时
- 多语言LibriSpeech - 1036小时
- VoxPopuli - 182小时
两个模型使用相同数据集,仅在预处理步骤中次级模型训练数据去除了连字符。
性能
自动语音识别模型性能通过词错误率衡量。由于训练数据涵盖多领域且规模更大,该模型在通用音频转录任务中表现更优。
最新模型在以下评估集上的贪婪解码得分:
- MCV7.0开发集: 8.35%
- MCV7.0测试集: 9.63%
- MLS开发集: 5.88%
- MLS测试集: 4.91%
使用128束搜索和4gram KenLM模型时:
- MCV7.0开发集: 7.95%
- MCV7.0测试集: 9.16%
- MLS开发集: 5.57%
- MLS测试集: 4.66%
注意:评估数据集已过滤预处理,仅含法语字母字符,并移除了连字符和撇号外的标点。
局限性
由于训练数据来自公开语音数据集,该模型在涉及技术术语或未训练方言的语音上表现可能下降。对口音语音的识别效果也可能较差。
此外,由于训练集部分文本包含1990年正字法改革前后的内容,标点使用规范可能存在差异。如需更高一致性,建议进行微调或后处理。若正字法无需精确,建议使用次级模型。
通过NVIDIA Riva部署
为获得最佳实时准确率、延迟和吞吐量,建议使用NVIDIA Riva部署模型。Riva是可在本地、全云、多云、混合云、边缘和嵌入式环境中部署的加速语音AI SDK,还提供:
- 基于数百上千GPU计算小时专有数据训练的世界级开箱即用准确率
- 实时词汇增强(如品牌和产品名称)以及声学模型、语言模型和逆文本归一化的定制化最佳准确率
- 流式语音识别、Kubernetes兼容扩展和企业级支持
查看Riva在线演示。
参考文献