U

Unispeech 1350 En 17h Ky Ft 1h

由 microsoft 开发
基于微软UniSpeech架构的语音识别模型,专门针对吉尔吉斯语进行微调
下载量 39
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是基于16kHz采样语音音频和音素标签预训练的大模型,并在1小时的吉尔吉斯语音素数据上微调。主要用于吉尔吉斯语的自动语音识别任务。

模型特点

多任务学习
结合监督式音素CTC学习和音素感知对比自监督学习
跨语言泛化能力
通过统一预训练方法提升跨语言和跨领域的泛化能力
高效微调
仅需1小时的吉尔吉斯语音素数据即可完成微调

模型能力

吉尔吉斯语语音识别
音素序列预测
跨语言语音表征学习

使用案例

语音识别
吉尔吉斯语语音转文本
将吉尔吉斯语语音转换为音素序列或文本
相比自监督预训练和监督迁移学习,分别最高可降低13.4%和17.8%的相对音素错误率
语音技术研究
跨语言语音表征研究
用于研究语音表征的跨语言迁移能力
在领域迁移语音识别任务中实现6%的相对词错误率下降