V

Vocos Mel Hifigan Compat 44100khz

由 patriotyk 开发
Vocos 是一款快速神经声码器,通过生成频谱系数实现高效音频重建,特别适用于文本转语音任务。
下载量 2,222
发布时间 : 5/10/2024
模型介绍
内容详情
替代品

模型简介

Vocos 是一款专为从声学特征合成音频波形而设计的快速神经声码器。它通过生成频谱系数并借助逆傅里叶变换实现快速音频重建,相比传统GAN声码器具有更快的处理速度。

模型特点

快速频谱重建
通过生成频谱系数而非直接建模时域音频样本,实现更快速的音频重建
高保真音频合成
采用梅尔频谱作为声学特征,生成高质量的音频波形
兼容多种TTS模型
设计兼容多种文本转语音模型的声学输出
高效训练
使用两块RTX-3090显卡训练约一个月即可完成

模型能力

梅尔频谱到音频转换
高保真语音合成
快速音频重建

使用案例

语音合成
文本转语音系统
作为TTS系统的后端声码器,将梅尔频谱转换为自然语音
生成高质量语音输出
音频处理
语音增强
对语音特征进行转换和重建
可能改善语音质量