语言:
- 多语言
- 法语
- 德语
- 西班牙语
- 加泰罗尼亚语
- 意大利语
- 俄语
- 中文
- 葡萄牙语
- 波斯语
- 爱沙尼亚语
- 蒙古语
- 荷兰语
- 土耳其语
- 阿拉伯语
- 瑞典语
- 拉脱维亚语
- 斯洛文尼亚语
- 泰米尔语
- 日语
- 印尼语
- 威尔士语
- 英语
数据集:
- 公共语音
- 多语言LibriSpeech
- Covost2
标签:
管道标签: 自动语音识别
许可证: apache-2.0
小部件:
- 示例标题: 瑞典语
来源: https://cdn-media.huggingface.co/speech_samples/cv_swedish_1.mp3
- 示例标题: 阿拉伯语
来源: https://cdn-media.huggingface.co/speech_samples/common_voice_ar_19058308.mp3
- 示例标题: 俄语
来源: https://cdn-media.huggingface.co/speech_samples/common_voice_ru_18849022.mp3
- 示例标题: 德语
来源: https://cdn-media.huggingface.co/speech_samples/common_voice_de_17284683.mp3
- 示例标题: 法语
来源: https://cdn-media.huggingface.co/speech_samples/common_voice_fr_17299386.mp3
- 示例标题: 印尼语
来源: https://cdn-media.huggingface.co/speech_samples/common_voice_id_19051309.mp3
- 示例标题: 意大利语
来源: https://cdn-media.huggingface.co/speech_samples/common_voice_it_17415776.mp3
- 示例标题: 日语
来源: https://cdn-media.huggingface.co/speech_samples/common_voice_ja_19482488.mp3
- 示例标题: 蒙古语
来源: https://cdn-media.huggingface.co/speech_samples/common_voice_mn_18565396.mp3
- 示例标题: 荷兰语
来源: https://cdn-media.huggingface.co/speech_samples/common_voice_nl_17691471.mp3
- 示例标题: 俄语
来源: https://cdn-media.huggingface.co/speech_samples/common_voice_ru_18849022.mp3
- 示例标题: 土耳其语
来源: https://cdn-media.huggingface.co/speech_samples/common_voice_tr_17341280.mp3
- 示例标题: 加泰罗尼亚语
来源: https://cdn-media.huggingface.co/speech_samples/common_voice_ca_17367522.mp3
- 示例标题: 英语
来源: https://cdn-media.huggingface.co/speech_samples/common_voice_en_18301577.mp3
- 示例标题: 荷兰语
来源: https://cdn-media.huggingface.co/speech_samples/common_voice_nl_17691471.mp3
Wav2Vec2-XLS-R-2b-21-EN
Facebook的Wav2Vec2 XLS-R微调用于语音翻译。

这是一个SpeechEncoderDecoderModel模型。
编码器是从facebook/wav2vec2-xls-r-1b
检查点热启动的,
解码器是从facebook/mbart-large-50
检查点热启动的。
因此,编码器-解码器模型在Covost2数据集的21个{lang}
-> en
翻译对上进行了微调。
该模型可以将以下口语语言{lang}
-> en
(英语)进行翻译:
{fr
, de
, es
, ca
, it
, ru
, zh-CN
, pt
, fa
, et
, mn
, nl
, tr
, ar
, sv-SE
, lv
, sl
, ta
, ja
, id
, cy
} -> en
更多信息,请参考官方XLS-R论文的5.1.2节。
使用方法
演示
可以直接在本模型卡片的语音识别小部件上测试该模型!
只需录制一些可能的口语语言的音频或选择一个示例音频文件,看看该检查点如何翻译输入。
示例
由于这是一个标准的序列到序列变换器模型,您可以使用generate
方法通过将语音特征传递给模型来生成转录。
您可以通过ASR管道直接使用该模型
from datasets import load_dataset
from transformers import pipeline
librispeech_en = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
audio_file = librispeech_en[0]["file"]
asr = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-xls-r-1b-21-to-en", feature_extractor="facebook/wav2vec2-xls-r-1b-21-to-en")
translation = asr(audio_file)
或逐步如下:
import torch
from transformers import Speech2Text2Processor, SpeechEncoderDecoderModel
from datasets import load_dataset
model = SpeechEncoderDecoderModel.from_pretrained("facebook/wav2vec2-xls-r-1b-21-to-en")
processor = Speech2Text2Processor.from_pretrained("facebook/wav2vec2-xls-r-1b-21-to-en")
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
inputs = processor(ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["array"]["sampling_rate"], return_tensors="pt")
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"])
transcription = processor.batch_decode(generated_ids)
结果 {lang}
-> en
请参见**XLS-R (1B)**行,了解该模型在Covost2上的性能。

更多{lang}
-> en
语音翻译的XLS-R模型