H

Hubert Base Ls960

由 facebook 开发
HuBERT是一种自监督语音表示学习模型,通过类似BERT的预测损失学习语音特征,适用于语音识别等任务。
下载量 406.60k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

HuBERT(隐藏单元BERT)是一种自监督语音表示学习方法,通过离线聚类步骤为类似BERT的预测损失提供目标标签。该模型在16kHz采样的语音音频上进行了预训练,适用于语音识别、生成和压缩等任务。

模型特点

自监督学习
通过无监督聚类步骤提供目标标签,无需大量标注数据即可学习语音表示。
高效语音表示
在连续输入上结合声学和语言模型,学习高效的语音特征表示。
高性能
在Librispeech和Libri-light基准测试中表现优于或相当于最先进的wav2vec 2.0模型。

模型能力

语音表示学习
语音识别
语音生成
语音压缩

使用案例

语音识别
自动语音转录
将语音音频转换为文本,适用于会议记录、字幕生成等场景。
在Librispeech测试集上表现优异,相对词错误率降低13-19%。
语音生成
语音合成
结合其他模型生成自然语音。