W

Wavlm Base

由 microsoft 开发
WavLM是微软开发的大规模自监督预训练语音模型,基于16kHz采样的语音音频进行预训练,适用于全栈语音处理任务。
下载量 28.33k
发布时间 : 3/2/2022

模型简介

WavLM是一个基于HuBERT框架构建的预训练语音模型,专注于口语内容建模和说话人身份保留。该模型在SUPERB基准测试中表现优异,适用于语音识别、语音分类等多种语音处理任务。

模型特点

全栈语音处理
设计用于支持多种语音处理任务,包括语音识别、语音分类、说话人验证等
大规模预训练
基于960小时的Librispeech数据预训练,扩展训练数据集至9.4万小时
说话人身份保留
通过话语混合训练策略,有效区分说话人身份
改进的Transformer结构
配备门控相对位置偏置,提升识别任务能力

模型能力

语音表示学习
语音识别(需微调)
语音分类(需微调)
说话人验证(需微调)
说话人日志(需微调)

使用案例

语音识别
英文语音转录
将英文语音转换为文本
需在标注文本数据上微调后使用
语音分类
情感识别
识别语音中的情感状态
需在标注数据上微调后使用
说话人识别
说话人验证
验证语音中的说话人身份
需在特定数据集上微调后使用
AIbase
智启未来,您的人工智能解决方案智库
简体中文