UniSpeech开源模型 - 免费支持结合多数据预训练及西班牙语音素识别

首页

Unispeech 1350 En 168 Es Ft 1h

由 microsoft 开发

UniSpeech是一个统一语音表征学习模型，结合标注与无标注数据进行预训练，特别针对西班牙语音素识别进行了微调。

语音识别

Transformers

西班牙语#西班牙语音素识别 #多任务语音表征 #跨语言迁移

下载量 19

发布时间 : 3/2/2022

模型简介

该模型基于16kHz采样的语音音频和音素标签进行预训练，并在1小时西班牙语音素数据上微调，主要用于音素分类任务。

模型特点

统一表征学习

通过多任务学习同时进行监督式音素CTC学习和音素感知对比自监督学习

跨语言能力

在CommonVoice语料库上表现出良好的跨语言表征学习效果

领域适应性强

在领域迁移语音识别任务中相比之前方法实现了6%的相对词错误率下降

模型能力

语音识别

音素分类

跨语言语音处理

使用案例

语音识别

西班牙语音素识别

将西班牙语语音转换为音素序列

相比自监督预训练和监督迁移学习，分别最高可降低13.4%和17.8%的相对音素错误率

🚀 UniSpeech-Large-plus 西班牙语版

UniSpeech-Large-plus 西班牙语版是基于语音音频和音素标签预训练的大模型，在西班牙语音素上进行了微调。该模型可用于语音识别任务，能有效处理西班牙语语音输入。

🚀 快速开始

此为在音素分类上进行了微调的语音模型。在使用该模型时，请确保语音输入采样率为 16kHz，并将文本转换为音素序列。

💻 使用示例

基础用法

import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F

model_id = "microsoft/unispeech-1350-en-168-es-ft-1h"

sample = next(iter(load_dataset("common_voice", "es", split="test", streaming=True)))
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()

model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)

input_values = processor(resampled_audio, return_tensors="pt").input_values

with torch.no_grad():
    logits = model(input_values).logits

prediction_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(prediction_ids)
# -> gives:
# b j e n i k e ɾ ɾ e ɣ a l o a s a β ɾ i ɾ p ɾ i m e ɾ o'
# for: Bien . ¿ y qué regalo vas a abrir primero ?

📚 详细文档

模型信息

模型来源：Microsoft's UniSpeech
原模型地址：https://github.com/microsoft/UniSpeech/tree/main/UniSpeech
论文链接：Paper: UniSpeech: Unified Speech Representation Learning with Labeled and Unlabeled Data
作者：Chengyi Wang, Yu Wu, Yao Qian, Kenichi Kumatani, Shujie Liu, Furu Wei, Michael Zeng, Xuedong Huang

论文摘要

本文提出了一种名为 UniSpeech 的统一预训练方法，用于利用有标签和无标签数据学习语音表征。在该方法中，监督音素 CTC 学习和音素感知对比自监督学习以多任务学习的方式进行。所得到的表征能够捕捉与音素结构更相关的信息，并提高跨语言和领域的泛化能力。我们在公共 CommonVoice 语料库上评估了 UniSpeech 用于跨语言表征学习的有效性。结果表明，与自监督预训练和监督迁移学习相比，UniSpeech 在语音识别方面的相对音素错误率分别最多降低了 13.4% 和 17.8%（在所有测试语言上平均）。在领域转移语音识别任务中，UniSpeech 的可迁移性也得到了证明，与之前的方法相比，相对词错误率降低了 6%。

👥 贡献者

该模型由 cywang 和 patrickvonplaten 贡献。

📄 许可证

官方许可证可在此处查看。

📊 官方结果

查看 UniSpeeech-L^{+} - es 的结果：

design

📋 信息表格

属性	详情
模型类型	语音识别模型，在音素分类上微调
训练数据	16kHz 采样的语音音频和音素标签，在 1 小时的西班牙语音素上微调
数据集	CommonVoice
标签	音频、自动语音识别