U

Unispeech 1350 En 90 It Ft 1h

由 microsoft 开发
UniSpeech是一个统一的语音表征学习模型,结合了监督式音素CTC学习和自监督学习,特别针对意大利语进行了微调。
下载量 19
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型基于16kHz采样的语音音频及音素标签进行预训练,并在1小时意大利语音素数据上微调,适用于音素分类任务。

模型特点

多任务学习
同时进行监督式音素CTC学习和音素感知对比自监督学习
跨语言泛化
生成的表征能更好捕捉与音素结构相关的信息,提升跨语言和跨领域的泛化能力
高效微调
仅需1小时的意大利语音素数据即可完成微调

模型能力

语音识别
音素分类
跨语言语音表征学习

使用案例

语音识别
意大利语音素识别
将意大利语语音转换为音素序列
音素错误率6.69%
语音技术研究
跨语言语音表征研究
研究语音表征在不同语言间的迁移能力
相比自监督预训练和监督迁移学习,分别最高可降低13.4%和17.8%的相对音素错误率