许可证: cc-by-nc-4.0
语言:
- 英语
- 德语
- 西班牙语
- 法语
库名称: nemo
数据集:
- librispeech_asr
- fisher_corpus
- Switchboard-1
- WSJ-0
- WSJ-1
- 新加坡国家语料库第一部分
- 新加坡国家语料库第六部分
- vctk
- voxpopuli
- europarl
- multilingual_librispeech
- mozilla-foundation/common_voice_8_0
- MLCommons/peoples_speech
缩略图: null
标签:
- 自动语音识别
- 自动语音翻译
- 语音
- 音频
- Transformer
- FastConformer
- Conformer
- pytorch
- NeMo
- hf-asr-leaderboard
小部件:
- 示例标题: Librispeech 样本1
src: https://cdn-media.huggingface.co/speech_samples/sample1.flac
- 示例标题: Librispeech 样本2
src: https://cdn-media.huggingface.co/speech_samples/sample2.flac
模型索引:
- 名称: canary-1b
结果:
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: LibriSpeech (其他)
类型: librispeech_asr
配置: other
分割: test
参数:
language: en
指标:
- 名称: 测试WER
类型: wer
值: 2.89
- 任务:
类型: 自动语音识别
名称: automatic-speech-recognition
数据集:
名称: SPGI Speech
类型: kensho/spgispeech
配置: test
分割: test
参数:
language: en
指标:
- 名称: 测试WER
类型: wer
值: 4.79
- 任务:
类型: 自动语音识别
名称: automatic-speech-recognition
数据集:
名称: Mozilla Common Voice 16.1
类型: mozilla-foundation/common_voice_16_1
配置: en
分割: test
参数:
language: en
指标:
- 名称: 测试WER (英语)
类型: wer
值: 7.97
- 任务:
类型: 自动语音识别
名称: automatic-speech-recognition
数据集:
名称: Mozilla Common Voice 16.1
类型: mozilla-foundation/common_voice_16_1
配置: de
分割: test
参数:
language: de
指标:
- 名称: 测试WER (德语)
类型: wer
值: 4.61
- 任务:
类型: 自动语音识别
名称: automatic-speech-recognition
数据集:
名称: Mozilla Common Voice 16.1
类型: mozilla-foundation/common_voice_16_1
配置: es
分割: test
参数:
language: es
指标:
- 名称: 测试WER (西班牙语)
类型: wer
值: 3.99
- 任务:
类型: 自动语音识别
名称: automatic-speech-recognition
数据集:
名称: Mozilla Common Voice 16.1
类型: mozilla-foundation/common_voice_16_1
配置: fr
分割: test
参数:
language: fr
指标:
- 名称: 测试WER (法语)
类型: wer
值: 6.53
- 任务:
类型: 自动语音翻译
名称: automatic-speech-translation
数据集:
名称: FLEURS
类型: google/fleurs
配置: en_us
分割: test
参数:
language: en-de
指标:
- 名称: 测试BLEU (英->德)
类型: bleu
值: 32.15
- 任务:
类型: 自动语音翻译
名称: automatic-speech-translation
数据集:
名称: FLEURS
类型: google/fleurs
配置: en_us
分割: test
参数:
language: en-de
指标:
- 名称: 测试BLEU (英->西)
类型: bleu
值: 22.66
- 任务:
类型: 自动语音翻译
名称: automatic-speech-translation
数据集:
名称: FLEURS
类型: google/fleurs
配置: en_us
分割: test
参数:
language: en-de
指标:
- 名称: 测试BLEU (英->法)
类型: bleu
值: 40.76
- 任务:
类型: 自动语音翻译
名称: automatic-speech-translation
数据集:
名称: FLEURS
类型: google/fleurs
配置: de_de
分割: test
参数:
language: de-en
指标:
- 名称: 测试BLEU (德->英)
类型: bleu
值: 33.98
- 任务:
类型: 自动语音翻译
名称: automatic-speech-translation
数据集:
名称: FLEURS
类型: google/fleurs
配置: es_419
分割: test
参数:
language: es-en
指标:
- 名称: 测试BLEU (西->英)
类型: bleu
值: 21.80
- 任务:
类型: 自动语音翻译
名称: automatic-speech-translation
数据集:
名称: FLEURS
类型: google/fleurs
配置: fr_fr
分割: test
参数:
language: fr-en
指标:
- 名称: 测试BLEU (法->英)
类型: bleu
值: 30.95
- 任务:
类型: 自动语音翻译
名称: automatic-speech-translation
数据集:
名称: COVOST
类型: covost2
配置: de_de
分割: test
参数:
language: de-en
指标:
- 名称: 测试BLEU (德->英)
类型: bleu
值: 37.67
- 任务:
类型: 自动语音翻译
名称: automatic-speech-translation
数据集:
名称: COVOST
类型: covost2
配置: es_419
分割: test
参数:
language: es-en
指标:
- 名称: 测试BLEU (西->英)
类型: bleu
值: 40.7
- 任务:
类型: 自动语音翻译
名称: automatic-speech-translation
数据集:
名称: COVOST
类型: covost2
配置: fr_fr
分割: test
参数:
language: fr-en
指标:
- 名称: 测试BLEU (法->英)
类型: bleu
值: 40.42
指标:
- wer
- bleu
管道标签: automatic-speech-recognition
Canary 1B
|
| 
NVIDIA NeMo Canary 是一个多语言多任务模型家族,在多个基准测试中达到了最先进的性能。拥有10亿参数的Canary-1B支持4种语言(英语、德语、法语、西班牙语)的自动语音转文本识别(ASR),以及英语到德语/法语/西班牙语和德语/法语/西班牙语到英语的翻译,可选择是否包含标点和大小写(PnC)。
🚨注意:查看我们最新的Canary-1B-Flash模型,这是Canary-1B更快更准确的变体!
模型架构
Canary是一个编码器-解码器模型,采用FastConformer [1]编码器和Transformer解码器[2]。
通过从编码器提取的音频特征,任务令牌如<源语言>
、<目标语言>
、<任务>
和<切换PnC>
被输入到Transformer解码器以触发文本生成过程。Canary使用来自每种语言的SentencePiece [3]分词器的拼接分词器[5],这使得扩展到更多语言变得容易。
Canary-1B模型总共有24层编码器和24层解码器。
NVIDIA NeMo
要训练、微调或转录Canary,您需要安装NVIDIA NeMo。我们建议在安装Cython和最新版本的PyTorch后安装它。
pip install git+https://github.com/NVIDIA/NeMo.git@r1.23.0#egg=nemo_toolkit[asr]
如何使用此模型
该模型可在NeMo工具包[4]中使用,可作为预训练检查点用于推理或微调到另一个数据集。
加载模型
from nemo.collections.asr.models import EncDecMultiTaskModel
canary_model = EncDecMultiTaskModel.from_pretrained('nvidia/canary-1b')
decode_cfg = canary_model.cfg.decoding
decode_cfg.beam.beam_size = 1
canary_model.change_decoding_strategy(decode_cfg)
输入格式
Canary的输入可以是音频文件路径列表或jsonl清单文件。
如果输入是路径列表,Canary假设音频为英语并进行转录。即,Canary的默认行为是英语ASR。
predicted_text = canary_model.transcribe(
paths2audio_files=['path1.wav', 'path2.wav'],
batch_size=16,
)[0].text
要使用Canary转录其他支持的语言或执行语音到文本翻译,将输入指定为jsonl清单文件,其中文件中的每一行是一个包含以下字段的字典:
{
"audio_filepath": "/path/to/audio.wav",
"duration": 1000,
"taskname": "asr",
"source_lang": "en",
"target_lang": "en",
"pnc": "yes",
"answer": "na",
}
然后使用:
predicted_text = canary_model.transcribe(
"<输入清单文件路径>",
batch_size=16,
)[0].text
自动语音到文本识别(ASR)
转录英语音频的清单示例:
{
"audio_filepath": "/path/to/audio.wav",
"duration": 1000,
"taskname": "asr",
"source_lang": "en",
"target_lang": "en",
"pnc": "yes",
"answer": "na",
}
自动语音到文本翻译(AST)
将英语音频翻译为德语文本的清单示例:
{
"audio_filepath": "/path/to/audio.wav",
"duration": 1000,
"taskname": "s2t_translation",
"source_lang": "en",
"target_l