WavLM-base-plus开源语音模型 - 免费部署助力多种语音处理任务

首页

Wavlm Base Plus

由 microsoft 开发

WavLM是由微软开发的大规模自监督预训练语音模型，基于16kHz采样的语音音频进行预训练，适用于多种语音处理任务。

语音识别

Transformers

英语#全栈语音处理 #自监督预训练 #说话人保留

下载量 673.32k

发布时间 : 3/2/2022

模型简介

WavLM是一个基于HuBERT框架构建的预训练语音模型，专注于语音内容建模和说话人身份保留。该模型在SUPERB基准测试中表现优异，适用于语音识别、语音分类等多种下游任务。

模型特点

大规模预训练

模型在6万小时Libri-Light、1万小时GigaSpeech和2.4万小时VoxPopuli数据集上进行预训练。

全栈语音处理

优化了语音内容建模和说话人身份保留，适用于多种语音处理任务。

话语混合训练

采用无监督生成重叠话语的训练策略，增强说话人区分度。

模型能力

语音识别

语音分类

说话人验证

说话人日志

使用案例

语音识别

英语语音转文本

将英语语音转换为文本内容。

在SUPERB基准测试中达到最先进水平

语音分类

情感分析

通过语音分析说话人的情感状态。

🚀 WavLM-Base-Plus

WavLM-Base-Plus是一个在16kHz采样的语音音频上预训练的基础模型。该模型由微软开发，可用于解决全栈下游语音任务。使用此模型时，请确保输入的语音也采样为16kHz。

🚀 快速开始

本模型是一个英文预训练语音模型，在用于推理之前，需要在语音识别或音频分类等下游任务上进行微调。该模型以英文进行预训练，因此仅在英文场景下表现良好，且已在SUPERB基准测试中展现出良好的效果。

✨ 主要特性

多数据集预训练：模型在多个大规模语音数据集上进行了预训练，包括60,000小时的Libri-Light、10,000小时的GigaSpeech和24,000小时的VoxPopuli。
解决全栈语音任务：基于HuBERT框架构建，强调语音内容建模和说话人身份保留，可解决全栈下游语音任务。
创新训练策略：采用门控相对位置偏置改进Transformer结构，提升识别任务能力；提出话语混合训练策略，增强说话人辨别能力。

📦 安装指南

文档未提及安装步骤，暂不提供。

💻 使用示例

语音识别

要对模型进行语音识别微调，请参考官方语音识别示例。

语音分类

要对模型进行语音分类微调，请参考官方音频分类示例。

说话人验证

文档未提及相关内容，暂不提供。

说话人分割

文档未提及相关内容，暂不提供。

📚 详细文档

模型信息

属性	详情
模型类型	基于Transformer架构的语音预训练模型
训练数据	60,000小时的Libri-Light、10,000小时的GigaSpeech和24,000小时的VoxPopuli

论文信息

标题：WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing
作者：Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Michael Zeng, Furu Wei
摘要：自监督学习（SSL）在语音识别中取得了巨大成功，但在其他语音处理任务上的探索有限。由于语音信号包含说话人身份、副语言、语音内容等多方面信息，为所有语音任务学习通用表示具有挑战性。在本文中，我们提出了一种新的预训练模型WavLM，以解决全栈下游语音任务。WavLM基于HuBERT框架构建，强调语音内容建模和说话人身份保留。我们首先为Transformer结构配备门控相对位置偏置，以提高其在识别任务上的能力。为了更好地进行说话人辨别，我们提出了一种话语混合训练策略，在模型训练期间无监督地创建额外的重叠话语并将其纳入训练。最后，我们将训练数据集从60k小时扩展到94k小时。WavLM Large在SUPERB基准测试中取得了最先进的性能，并在各种语音处理任务的代表性基准测试中带来了显著改进。