语言:
- 西班牙语
库名称: nemo
数据集:
- Fisher
- VoxPopuli
- facebook/multilingual_librispeech
- mozilla-foundation/common_voice_7_0
缩略图: null
标签:
- 自动语音识别
- 语音
- 音频
- 传感器
- 康福默
- 变压器
- pytorch
- NeMo
- hf-asr排行榜
许可证: cc-by-4.0
模型索引:
- 名称: stt_es_conformer_transducer_large
结果:
- 任务:
类型: 自动语音识别
名称: 语音识别
数据集:
名称: common-voice-7-0-6
类型: mozilla-foundation/common_voice_7_0
配置: es
分割: dev
参数:
语言: es
指标:
- 名称: 开发集WER
类型: wer
值: 4.6
- 任务:
类型: 自动语音识别
名称: 语音识别
数据集:
名称: common-voice-7-0-6
类型: mozilla-foundation/common_voice_7_0
配置: es
分割: test
参数:
语言: es
指标:
- 名称: 测试集WER
类型: wer
值: 5.2
- 任务:
类型: 自动语音识别
名称: 自动语音识别
数据集:
名称: 多语言LibriSpeech
类型: facebook/multilingual_librispeech
配置: 西班牙语
分割: dev
参数:
语言: es
指标:
- 名称: 开发集WER
类型: wer
值: 2.7
- 任务:
类型: 自动语音识别
名称: 自动语音识别
数据集:
名称: 多语言LibriSpeech
类型: facebook/multilingual_librispeech
配置: 西班牙语
分割: test
参数:
语言: es
指标:
- 名称: 测试集WER
类型: wer
值: 3.2
NVIDIA康福默-传感器大型模型(西班牙语)
|
|
| 
该模型转录包含空格的小写西班牙语字母的语音,并在包含1340小时西班牙语语音的复合数据集上训练。它是康福默-传感器模型的“大型”变体,约1.2亿参数。
有关完整架构详情,请参阅模型架构部分和NeMo文档。
NVIDIA NeMo:训练
要训练、微调或使用该模型,您需要安装NVIDIA NeMo。建议在安装最新版Pytorch后安装。
pip install nemo_toolkit['all']
如何使用此模型
该模型可在NeMo工具包[3]中使用,可作为预训练检查点用于推理或微调其他数据集。
自动实例化模型
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("nvidia/stt_es_conformer_transducer_large")
使用Python转录
首先,获取样本
wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav
然后简单执行:
output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)
转录多个音频文件
python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py
pretrained_name="nvidia/stt_es_conformer_transducer_large"
audio_dir="<包含音频文件的目录>"
输入
该模型接受16000 Hz单声道音频(wav文件)作为输入。
输出
该模型为给定音频样本提供转录语音字符串。
模型架构
康福默-传感器模型是用于自动语音识别的康福默模型[1]的自回归变体,使用传感器损失/解码而非CTC损失。您可在此处找到有关该模型更多详细信息:康福默-传感器模型。
训练
NeMo工具包[3]用于训练模型数百个周期。这些模型使用此示例脚本和此基础配置训练。
这些模型的分词器使用训练集的文本转录本构建,使用此脚本。
数据集
本集合中的所有模型均在包含1340小时西班牙语语音的复合数据集(NeMo ASRSET)上训练:
- Mozilla Common Voice 7.0(西班牙语) - 数据清洗后289小时
- 多语言LibriSpeech(西班牙语) - 数据清洗后801小时
- Voxpopuli转录子集(西班牙语) - 数据清洗后110小时
- Fisher数据集(西班牙语) - 数据清洗后140小时
性能
下表显示了本集合中可用模型的列表。ASR模型的性能以贪婪解码的词错误率(WER%)报告。
版本 |
分词器 |
词汇量大小 |
MCV 7.0开发集 |
MCV 7.0测试集 |
MLS开发集 |
MLS测试集 |
Voxpopuli开发集 |
Voxpopuli测试集 |
Fisher开发集 |
Fisher测试集 |
训练数据集 |
1.8.0 |
SentencePiece Unigram |
1024 |
4.6 |
5.2 |
2.7 |
3.2 |
4.7 |
6.0 |
14.7 |
14.8 |
NeMo ASRSET 2.0 |
限制
由于该模型在公开可用的语音数据集上训练,对于包含技术术语或模型未训练过的方言的语音,其性能可能下降。对于口音语音,模型表现也可能较差。
NVIDIA Riva:部署
NVIDIA Riva,是一个可部署在本地、所有云、多云、混合云、边缘和嵌入式的加速语音AI SDK。
此外,Riva提供:
- 世界级的开箱即用准确性,针对最常见语言,模型检查点基于数百上千GPU计算小时的专有数据训练
- 最佳准确性,运行时词增强(如品牌和产品名称)以及声学模型、语言模型和逆文本归一化的定制
- 流式语音识别、Kubernetes兼容扩展和企业级支持
尽管Riva尚未支持此模型,但支持的模型列表在此。
查看Riva实时演示。
参考文献
许可证
使用此模型的许可证涵盖CC-BY-4.0。通过下载模型的公共和发布版本,您接受CC-BY-4.0许可证的条款和条件。