WavLM-large开源语音模型 - 免费支持全栈语音处理任务

Wavlm Large

由 microsoft 开发

WavLM是微软开发的大规模自监督语音预训练模型，支持全栈语音处理任务，在SUPERB基准测试中表现优异。

下载量 396.53k

发布时间 : 3/2/2022

模型简介

基于16kHz采样语音音频数据构建的预训练模型，通过创新架构设计实现语音内容建模与说话人特征保持，适用于多种语音处理任务。

全栈语音处理

通过统一架构支持多种语音任务，包括语音识别、说话人识别等

大规模预训练

使用9.4万小时英语语音数据训练，覆盖Libri-Light、GigaSpeech和VoxPopuli数据集

创新训练策略

采用无监督语音混合训练策略增强说话人区分度

高性能表现

在SUPERB基准测试中达到最优性能

语音特征提取

说话人识别

语音内容理解

音频分类

语音识别

英语语音转文本

将英语语音转换为文本内容

需微调后使用

说话人识别

说话人验证

识别语音中的说话人身份

音频分析

音频分类

对音频内容进行分类识别

WavLM-Large是一个在16kHz采样的语音音频上预训练的大型模型。它为语音处理任务提供了强大的基础能力，可用于语音识别、音频分类等多种下游任务。

WavLM-Large是由微软开发的模型，你可以通过此链接查看相关信息。使用该模型时，请确保你的语音输入也是以16kHz采样的。

此模型仅在音频上进行了预训练，因此没有分词器。若要将此模型用于语音识别，则需要创建一个分词器，并在带标签的文本数据上对模型进行微调。你可以查看这篇博客，以获取关于如何微调该模型的详细解释。

多数据集预训练：模型在多个大规模数据集上进行了预训练，包括60,000小时的Libri-Light、10,000小时的GigaSpeech和24,000小时的VoxPopuli。
优秀的性能表现：在SUPERB基准测试中表现出色，能为各种语音处理任务带来显著的性能提升。

标题：WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing
作者：Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Michael Zeng, Furu Wei
摘要：自监督学习（SSL）在语音识别领域取得了巨大成功，但在其他语音处理任务上的探索有限。由于语音信号包含多方面信息，如说话人身份、副语言特征、语音内容等，为所有语音任务学习通用表示具有挑战性。在本文中，我们提出了一种新的预训练模型WavLM，以解决全栈下游语音任务。WavLM基于HuBERT框架构建，强调语音内容建模和说话人身份保留。我们首先为Transformer结构配备门控相对位置偏置，以提高其在识别任务上的能力。为了更好地区分说话人，我们提出了一种话语混合训练策略，在模型训练期间无监督地创建额外的重叠话语并将其纳入训练。最后，我们将训练数据集从60k小时扩展到94k小时。WavLM Large在SUPERB基准测试中达到了最先进的性能，并在各种语音处理任务的代表性基准测试中带来了显著的改进。