N

Nvidia Tts En Hifitts Hifigan Ft Fastpitch

由 Mastering-Python-HF 开发
HiFiGAN是一种基于GAN的声码器模型,能够从梅尔频谱图生成高质量音频,支持多说话人英语语音合成。
下载量 16
发布时间 : 7/10/2023
模型介绍
内容详情
替代品

模型简介

该模型通过转置卷积将梅尔频谱图上采样为音频信号,主要用于文本转语音系统的后端声码器部分,可与FastPitch等前端模型配合使用。

模型特点

高质量音频生成
基于GAN架构生成自然流畅的语音波形,支持44.1kHz高采样率
多说话人支持
内置10个不同说话人ID,可生成不同音色的语音
全并行处理
采用完全并行的Transformer架构,合成速度显著优于传统模型
音高控制
通过预测音高轮廓使合成语音更具表现力

模型能力

文本转语音
梅尔频谱图转换
多说话人语音生成
音高调节

使用案例

语音合成
有声内容创作
为电子书、新闻等内容生成自然语音
支持不同音色的多说话人输出
语音助手
为虚拟助手提供高质量的语音输出
44.1kHz采样率提供清晰音质