语言:
- 西班牙语(es)
库名称: nemo
数据集:
- Fisher
- VoxPopuli
- facebook/multilingual_librispeech
- mozilla-foundation/common_voice_7_0
缩略图: null
标签:
- 自动语音识别
- 语音
- 音频
- CTC
- Conformer
- Transformer
- pytorch
- NeMo
- hf-asr-leaderboard
- Riva
许可证: cc-by-4.0
模型索引:
- 名称: stt_es_conformer_ctc_large
结果:
- 任务:
类型: 自动语音识别
名称: 语音识别
数据集:
名称: common-voice-7-0-6
类型: mozilla-foundation/common_voice_7_0
配置: es
分割: dev
参数:
语言: es
指标:
- 名称: 开发集WER
类型: wer
值: 5.0
- 任务:
类型: 自动语音识别
名称: 语音识别
数据集:
名称: common-voice-7-0-6
类型: mozilla-foundation/common_voice_7_0
配置: es
分割: test
参数:
语言: es
指标:
- 名称: 测试集WER
类型: wer
值: 5.5
- 任务:
类型: 自动语音识别
名称: 自动语音识别
数据集:
名称: 多语言LibriSpeech
类型: facebook/multilingual_librispeech
配置: 西班牙语
分割: dev
参数:
语言: es
指标:
- 名称: 开发集WER
类型: wer
值: 3.6
- 任务:
类型: 自动语音识别
名称: 自动语音识别
数据集:
名称: 多语言LibriSpeech
类型: facebook/multilingual_librispeech
配置: 西班牙语
分割: test
参数:
语言: es
指标:
- 名称: 测试集WER
类型: wer
值: 3.6
NVIDIA Conformer-CTC大型西班牙语模型
|
|
|
|
|
该模型用于转录包含空格的小写西班牙语字母的语音,训练数据由1340小时的西班牙语语音组成。它是Conformer的非自回归"大型"变体,约1.2亿参数。完整架构细节请参见模型架构部分和NeMo文档。该模型还与NVIDIA Riva兼容,可用于生产级服务器部署。
使用方式
该模型可在NeMo工具包[3]中使用,可作为预训练检查点用于推理或在其他数据集上进行微调。
要训练、微调或使用该模型,您需要安装NVIDIA NeMo。建议在安装最新版PyTorch后安装。
pip install nemo_toolkit['all']
自动实例化模型
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained("nvidia/stt_es_conformer_ctc_large")
使用Python转录
首先获取示例音频
wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav
然后执行:
output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)
转录多个音频文件
python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py
pretrained_name="nvidia/stt_es_conformer_ctc_large"
audio_dir="<包含音频文件的目录>"
输入
该模型接受16kHz单声道音频(wav文件)作为输入。
输出
该模型为给定音频样本提供转录文本字符串。
模型架构
Conformer-CTC模型是Conformer模型[1]的非自回归变体,用于自动语音识别,使用CTC损失/解码而非Transducer。更多细节请参考:Conformer-CTC模型。
训练
使用NeMo工具包[3]训练模型数百个epoch。这些模型使用此示例脚本和此基础配置进行训练。
这些模型的分词器使用训练集的文本转录本构建,使用此脚本。
用作神经重评器的语言模型检查点可在此找到。有关如何训练和使用ASR模型的语言模型的更多信息,请参考:ASR语言建模
数据集
该系列所有模型均在包含1340小时西班牙语语音的复合数据集(NeMo ASRSET)上训练:
- Mozilla Common Voice 7.0(西班牙语) - 数据清洗后289小时
- 多语言LibriSpeech(西班牙语) - 数据清洗后801小时
- Voxpopuli转录子集(西班牙语) - 数据清洗后110小时
- Fisher数据集(西班牙语) - 数据清洗后140小时
性能
下表展示了该系列可用模型的列表。ASR模型的性能以贪婪解码的词错误率(WER%)报告。
版本 |
分词器 |
词汇量大小 |
MCV 7.0开发集 |
MCV 7.0测试集 |
MLS开发集 |
MLS测试集 |
Voxpopuli开发集 |
Voxpopuli测试集 |
Fisher开发集 |
Fisher测试集 |
训练数据集 |
1.8.0 |
SentencePiece Unigram |
1024 |
6.3 |
6.9 |
4.3 |
4.2 |
6.1 |
7.5 |
18.3 |
18.5 |
NeMo ASRSET 2.0 |
在使用NVIDIA Riva部署时,可将此模型与外部语言模型结合以进一步提升WER。下表展示了最新模型采用不同语言建模技术时的WER(%)。
语言建模 |
训练数据集 |
MCV 7.0开发集 |
MCV 7.0测试集 |
MLS开发集 |
MLS测试集 |
Voxpopuli开发集 |
Voxpopuli测试集 |
Fisher开发集 |
Fisher测试集 |
备注 |
N-gram语言模型 |
西班牙新闻爬取语料库(5000万句) + NeMo ASRSET训练转录本 |
5.0 |
5.5 |
3.6 |
3.6 |
5.5 |
6.7 |
17.4 |
17.5 |
N=4, 束宽=128, n_gram_alpha=0.8, n_gram_beta=1.5 |
局限性
由于该模型在公开语音数据集上训练,对于包含技术术语或模型未训练过的方言的语音,性能可能下降。对口音语音的表现也可能较差。
使用NVIDIA Riva部署
为获得最佳实时准确性、延迟和吞吐量,可使用NVIDIA Riva部署模型,这是一个可部署在本地、所有云、多云、混合云、边缘和嵌入式设备上的加速语音AI SDK。此外,Riva提供:
- 对最常见语言的开箱即用世界级准确性,模型检查点使用专有数据训练,耗费数十万GPU计算小时
- 通过运行时词增强(如品牌和产品名称)以及声学模型、语言模型和逆文本归一化的定制实现最佳准确性
- 流式语音识别、Kubernetes兼容扩展和企业级支持
查看Riva实时演示。
参考文献