W

Wavlm Base

由 microsoft 开发
WavLM是微软开发的大规模自监督预训练语音模型,基于16kHz采样的语音音频进行预训练,适用于全栈语音处理任务。
下载量 28.33k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

WavLM是一个基于HuBERT框架构建的预训练语音模型,专注于口语内容建模和说话人身份保留。该模型在SUPERB基准测试中表现优异,适用于语音识别、语音分类等多种语音处理任务。

模型特点

全栈语音处理
设计用于支持多种语音处理任务,包括语音识别、语音分类、说话人验证等
大规模预训练
基于960小时的Librispeech数据预训练,扩展训练数据集至9.4万小时
说话人身份保留
通过话语混合训练策略,有效区分说话人身份
改进的Transformer结构
配备门控相对位置偏置,提升识别任务能力

模型能力

语音表示学习
语音识别(需微调)
语音分类(需微调)
说话人验证(需微调)
说话人日志(需微调)

使用案例

语音识别
英文语音转录
将英文语音转换为文本
需在标注文本数据上微调后使用
语音分类
情感识别
识别语音中的情感状态
需在标注数据上微调后使用
说话人识别
说话人验证
验证语音中的说话人身份
需在特定数据集上微调后使用