wav2vec2-xlsr-53-espeak-cv-ft开源模型 - 支持多语言音素标签识别

首页

Wav2vec2 Xlsr 53 Espeak Cv Ft

由 facebook 开发

该模型是基于wav2vec2-large-xlsr-53预训练模型在CommonVoice数据集上微调的多语言音素识别模型，支持多种语言的音素标签识别。

语音识别

Transformers

开源协议:Apache-2.0 #多语言音素识别 #零样本迁移学习 #语音转音素

下载量 315.39k

发布时间 : 3/2/2022

模型简介

该模型用于自动语音识别(ASR)任务，特别针对多语言音素识别进行了优化。它可以将16kHz采样率的语音输入转换为音素标签序列。

模型特点

多语言音素识别

能够识别多种语言的音素标签，适用于跨语言语音识别任务

基于CommonVoice微调

在CommonVoice数据集上进行了微调，提高了对真实语音数据的识别能力

零样本跨语言迁移

支持零样本跨语言迁移学习，可以处理未见过的语言

模型能力

语音识别

音素识别

多语言处理

零样本跨语言迁移

使用案例

语音转录

多语言音素转录

将语音转换为音素序列，适用于需要音素级别分析的应用

输出为音素标签序列

语音学研究

跨语言音素分析

研究不同语言间的音素分布和差异

🚀 Wav2Vec2-Large-XLSR-53 在多语言 Common Voice 上微调

本项目基于预训练模型 wav2vec2-large-xlsr-53，并在 CommonVoice 数据集上进行微调，以识别多种语言的音素标签。

在使用该模型时，请确保输入的语音采样率为 16kHz。请注意，模型输出的是一串音素标签，需要使用一个将音素标签映射到单词的字典，才能将音素输出标签转换为输出单词。

论文：Simple and Effective Zero-shot Cross-lingual Phoneme Recognition

作者：Qiantong Xu、Alexei Baevski、Michael Auli

摘要近期，自训练、自监督预训练和无监督学习的进展使得无需任何标注数据的语音识别系统也能有出色表现。然而，在许多情况下，相关语言的标注数据并未被这些方法充分利用。本文通过微调多语言预训练的 wav2vec 2.0 模型来转录未见语言，扩展了先前关于零样本跨语言迁移学习的工作。具体做法是利用发音特征将训练语言的音素映射到目标语言。实验表明，这种简单的方法显著优于先前引入特定任务架构且仅使用单语言预训练模型部分组件的工作。

原始模型可在 https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 找到。

🚀 快速开始

本模型可作为独立的声学模型来转录音频文件，使用方法如下：

💻 使用示例

基础用法

 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
 from datasets import load_dataset
 import torch
 
 # load model and processor
 processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-xlsr-53-espeak-cv-ft")
 model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-xlsr-53-espeak-cv-ft")
     
 # load dummy dataset and read soundfiles
 ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
 
 # tokenize
 input_values = processor(ds[0]["audio"]["array"], return_tensors="pt").input_values
 
 # retrieve logits
 with torch.no_grad():
   logits = model(input_values).logits
 
 # take argmax and decode
 predicted_ids = torch.argmax(logits, dim=-1)
 transcription = processor.batch_decode(predicted_ids)
 # => should give ['m ɪ s t ɚ k w ɪ l t ɚ ɪ z ð ɪ ɐ p ɑː s əl l ʌ v ð ə m ɪ d əl k l æ s ɪ z æ n d w iː aʊ ɡ l æ d t ə w ɛ l k ə m h ɪ z ɡ ɑː s p ə']

📚 详细文档

模型信息

属性	详情
模型类型	基于预训练的 wav2vec2-large-xlsr-53 微调的语音识别模型
训练数据	CommonVoice 多语言数据集
标签	语音、音频、自动语音识别、音素识别
许可证	Apache-2.0

示例音频

注意事项

⚠️ 重要提示

使用模型时，请确保语音输入的采样率为 16kHz。模型输出的是音素标签，需要使用字典将其映射为单词。