T

Tts Hifigan

由 nvidia 开发
HiFiGAN是一种生成对抗网络(GAN)模型,能够从梅尔频谱图生成高质量音频,适用于文本转语音系统。
下载量 5,022
发布时间 : 6/29/2022
模型介绍
内容详情
替代品

模型简介

该模型是用于文本转语音系统的声码器,可将梅尔频谱图转换为自然语音。基于GAN架构,特别适合与FastPitch等频谱图生成模型配合使用。

模型特点

高质量音频生成
采用GAN架构生成高保真语音,输出采样率为22050Hz
高效训练
使用多尺度判别器和多周期判别器提升训练稳定性
Riva兼容
可与NVIDIA Riva语音AI SDK集成,实现高效部署

模型能力

梅尔频谱图转音频
语音合成
高保真音频生成

使用案例

语音合成系统
文本转语音系统
与FastPitch等模型配合构建完整TTS流程
生成自然流畅的美式英语语音
语音助手
为对话系统提供高质量的语音输出