X

Xphonebert Base

由 vinai 开发
XPhoneBERT是首个面向文本转语音(TTS)的音素表征预训练多语言模型,基于BERT-base架构,使用近100种语言的3.3亿条音素级句子训练。
下载量 7,561
发布时间 : 4/13/2023
模型介绍
内容详情
替代品

模型简介

XPhoneBERT是一个预训练的多语言音素表征模型,专为文本转语音(TTS)任务设计,能够提升TTS模型在自然度和韵律方面的表现。

模型特点

多语言支持
支持近100种语言和地区的音素表征学习
音素级预训练
使用3.3亿条音素级句子进行预训练,优化TTS任务表现
提升TTS质量
作为输入音素编码器可显著提升TTS模型的自然度和韵律表现
低资源适应
在有限训练数据下仍能生成较高质量的语音

模型能力

音素序列编码
多语言文本转音素
提升TTS模型性能

使用案例

语音合成
高质量TTS系统
作为前端音素编码器集成到TTS系统中
提升合成语音的自然度和韵律表现
低资源语言TTS
在训练数据有限的语言中构建TTS系统
生成质量相对较高的语音输出