Hubert-xlarge-ll60k开源语音模型 - 免费实现语音声学与语言联合表征学习

首页

Hubert Xlarge Ll60k

由 facebook 开发

Hubert是一个基于自监督学习的语音表征模型，通过类BERT的预测损失学习语音的声学和语言联合表征。

语音识别

Transformers

英语开源协议:Apache-2.0 #自监督语音表征 #16kHz音频处理 #多任务微调适配

下载量 3,874

发布时间 : 3/2/2022

模型简介

该模型基于16kHz采样的语音音频进行预训练，适用于多种下游语音任务，如自动语音识别、说话人识别等。

模型特点

自监督学习

通过类BERT的预测损失学习语音表征，无需大量标注数据。

多轮聚类迭代

采用两轮聚类迭代优化模型性能，提升表征质量。

联合表征学习

同时学习声学和语言模型的联合表征，提升下游任务表现。

模型能力

语音表征提取

自动语音识别

说话人识别

意图分类

情感识别

使用案例

语音处理

自动语音识别

将语音转换为文本

在Librispeech和Libri-light基准测试中达到或超越wav2vec 2.0的性能

说话人识别

识别语音中的说话人身份

🚀 Hubert-Extra-Large

Hubert-Extra-Large 是一个在 16kHz 采样语音音频上预训练的超大模型。该模型可用于解决语音识别、说话人识别、意图分类、情感识别等下游任务。使用时，请确保输入的语音也以 16kHz 采样。

🚀 快速开始

本模型基于 Facebook 的 Hubert 开发，在 Libri-Light 数据集上进行了预训练。你可以参考这篇博客了解如何微调该模型。注意，需要将 Wav2Vec2ForCTC 类替换为 HubertForCTC。

✨ 主要特性

预训练规模大：在 16kHz 采样的语音音频上进行预训练，适用于多种语音相关的下游任务。
解决语音学习难题：该模型提出的 Hidden-Unit BERT (HuBERT) 方法，有效解决了自监督语音表示学习中的三个独特问题：输入话语中的多个声音单元、预训练阶段缺乏输入声音单元的词典，以及声音单元长度可变且无明确分割。
性能出色：在 Librispeech (960h) 和 Libri-light (60,000h) 基准测试中，使用 10 分钟、1 小时、10 小时、100 小时和 960 小时的微调子集，HuBERT 模型的性能与最先进的 wav2vec 2.0 相当或更优。使用 10 亿参数模型时，在更具挑战性的 dev-other 和 test-other 评估子集上，相对字错误率 (WER) 分别降低了 19% 和 13%。

📚 详细文档

论文信息

论文链接：Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units
作者：Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed

摘要

自监督语音表示学习方法面临三个独特问题：(1) 每个输入话语中有多个声音单元；(2) 预训练阶段没有输入声音单元的词典；(3) 声音单元长度可变且无明确分割。为解决这三个问题，我们提出了用于自监督语音表示学习的 Hidden-Unit BERT (HuBERT) 方法，该方法利用离线聚类步骤为类似 BERT 的预测损失提供对齐的目标标签。我们方法的一个关键要素是仅在掩码区域应用预测损失，这迫使模型在连续输入上学习组合的声学和语言模型。HuBERT 主要依赖无监督聚类步骤的一致性，而不是分配的聚类标签的内在质量。从一个简单的 100 个聚类的 k-means 教师开始，并使用两轮聚类，HuBERT 模型在 Librispeech (960h) 和 Libri-light (60,000h) 基准测试中，使用 10 分钟、1 小时、10 小时、100 小时和 960 小时的微调子集，其性能与最先进的 wav2vec 2.0 相当或更优。使用 10 亿参数模型时，HuBERT 在更具挑战性的 dev-other 和 test-other 评估子集上，相对字错误率 (WER) 分别降低了 19% 和 13%。