wav2vec2 - lv - 60 - espeak - cv - ft开源模型 - 免费实现多语言音素识别

首页

Wav2vec2 Lv 60 Espeak Cv Ft

由 facebook 开发

该模型是基于Wav2Vec2-Large-LV60预训练模型，在CommonVoice数据集上进行微调，用于多语言音素识别。

语音识别

Transformers

其他开源协议:Apache-2.0 #多语言音素识别 #零样本迁移学习 #语音转音素

下载量 18.77k

发布时间 : 3/2/2022

模型简介

该模型主要用于多语言的音素识别任务，能够将语音输入转换为音素标签。需要配合音素到单词的映射词典使用。

模型特点

多语言支持

支持多种语言的音素识别

基于CommonVoice微调

在CommonVoice数据集上进行微调，提高了识别准确性

音素级别识别

输出为音素标签，需要配合词典转换为单词

模型能力

语音识别

音素识别

多语言处理

使用案例

语音转写

多语言语音转录

将多种语言的语音转换为音素标签

可进一步转换为文字

语音学研究

音素分析

用于分析不同语言的音素分布和特征

🚀 Wav2Vec2-Large-LV60在多语言Common Voice上微调

本项目的检查点借助了预训练检查点 wav2vec2-large-lv60，并在 CommonVoice 上进行微调，以识别多种语言的音素标签。

使用该模型时，请确保您的语音输入采样率为16kHz。请注意，该模型输出的是一串音素标签。需要使用一个将音素标签映射到单词的字典，才能将音素输出标签映射为输出单词。

论文：简单有效的零样本跨语言音素识别

作者：Qiantong Xu、Alexei Baevski、Michael Auli

摘要自训练、自监督预训练和无监督学习的最新进展，使得无需任何标注数据的语音识别系统也能有出色表现。然而，在许多情况下，相关语言的标注数据并未被这些方法充分利用。本文通过微调多语言预训练的wav2vec 2.0模型来转录未见语言，扩展了先前关于零样本跨语言迁移学习的工作。这是通过使用发音特征将训练语言的音素映射到目标语言来实现的。实验表明，这种简单的方法显著优于先前引入特定任务架构且仅使用单语言预训练模型部分内容的工作。

原始模型可在 https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 找到。

🚀 快速开始

本模型可作为独立的声学模型来转录音频文件，具体使用方法如下。

💻 使用示例

基础用法

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torch

# load model and processor
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-lv-60-espeak-cv-ft")
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-lv-60-espeak-cv-ft")

# load dummy dataset and read soundfiles
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# tokenize
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt").input_values

# retrieve logits
with torch.no_grad():
  logits = model(input_values).logits

# take argmax and decode
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)
# => should give ['m ɪ s t ɚ k w ɪ l t ɚ ɹ ɪ z ð ɪ ɐ p ɑː s əl ʌ v ð ə m ɪ d əl k l æ s ᵻ z æ n d w iː ɑːɹ ɡ l æ d t ə w ɛ l k ə m h ɪ z ɡ ɑː s p əl']