Wav2Vec2 XLS-R开源模型 - 免费部署实现多语言语音到英语翻译

首页

Wav2vec2 Xls R 1b 21 To En

由 facebook 开发

Facebook的Wav2Vec2 XLS-R模型，用于多语言语音到英语的翻译任务

语音识别

Transformers

支持多种语言开源协议:Apache-2.0 #多语言语音翻译 #21种语言转英语 #大规模预训练

下载量 511

发布时间 : 3/2/2022

模型简介

这是一个基于SpeechEncoderDecoder架构的模型，能够将21种语言的语音翻译成英语。编码器基于facebook/wav2vec2-xls-r-1b，解码器基于facebook/mbart-large-50，在Covost2数据集上进行了微调。

模型特点

多语言支持

支持21种语言到英语的语音翻译

大规模预训练

基于20亿参数的XLS-R模型，具有强大的语音特征提取能力

端到端翻译

直接从语音到目标语言文本的端到端翻译

模型能力

语音识别

多语言翻译

语音到文本转换

使用案例

语音翻译

实时语音翻译

将会议、演讲等场合的实时语音翻译成英语

在Covost2数据集上表现优异

多语言语音助手

为语音助手提供多语言输入支持

🚀 Wav2Vec2-XLS-R-2b-21-EN

Wav2Vec2-XLS-R-2b-21-EN 是 Facebook 基于 XLS-R 模型微调得到的用于语音翻译的模型，可实现多种语言到英语的语音翻译。

🚀 快速开始

演示

你可以直接在本模型卡片的语音识别小部件上测试该模型！只需用支持的语言录制一些音频，或者选择一个示例音频文件，就能查看该模型对输入内容的翻译效果。

示例

由于这是一个标准的序列到序列的Transformer模型，你可以使用generate方法，将语音特征传递给模型来生成转录内容。

你可以通过自动语音识别（ASR）管道直接使用该模型：

from datasets import load_dataset
from transformers import pipeline

# replace following lines to load an audio file of your choice
librispeech_en = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
audio_file = librispeech_en[0]["file"]

asr = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-xls-r-1b-21-to-en", feature_extractor="facebook/wav2vec2-xls-r-1b-21-to-en")

translation = asr(audio_file)

或者按以下步骤逐步使用：

import torch
from transformers import Speech2Text2Processor, SpeechEncoderDecoderModel
from datasets import load_dataset

model = SpeechEncoderDecoderModel.from_pretrained("facebook/wav2vec2-xls-r-1b-21-to-en")
processor = Speech2Text2Processor.from_pretrained("facebook/wav2vec2-xls-r-1b-21-to-en")

ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

inputs = processor(ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["array"]["sampling_rate"], return_tensors="pt")
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"])
transcription = processor.batch_decode(generated_ids)

✨ 主要特性

多语言支持：该模型支持从以下多种口语语言翻译为英语（en）：fr（法语）、de（德语）、es（西班牙语）、ca（加泰罗尼亚语）、it（意大利语）、ru（俄语）、zh-CN（中文）、pt（葡萄牙语）、fa（波斯语）、et（爱沙尼亚语）、mn（蒙古语）、nl（荷兰语）、tr（土耳其语）、ar（阿拉伯语）、sv-SE（瑞典语）、lv（拉脱维亚语）、sl（斯洛文尼亚语）、ta（泰米尔语）、ja（日语）、id（印尼语）、cy（威尔士语）。
模型架构：这是一个 SpeechEncoderDecoderModel 模型。编码器从 facebook/wav2vec2-xls-r-1b 检查点进行热启动，解码器从 facebook/mbart-large-50 检查点进行热启动。随后，该编码器 - 解码器模型在 Covost2 数据集的 21 个 {lang} -> en 翻译对上进行了微调。

📚 详细文档

模型信息

属性	详情
支持语言	法语、德语、西班牙语、加泰罗尼亚语、意大利语、俄语、中文、葡萄牙语、波斯语、爱沙尼亚语、蒙古语、荷兰语、土耳其语、阿拉伯语、瑞典语、拉脱维亚语、斯洛文尼亚语、泰米尔语、日语、印尼语、威尔士语到英语的翻译
数据集	common_voice、multilingual_librispeech、covost2
标签	语音、xls_r、自动语音识别、xls_r 翻译
管道标签	自动语音识别
许可证	apache - 2.0