B

Bigvgan 24khz 100band

由 nvidia 开发
BigVGAN是一种高性能神经声码器,通过大规模训练实现高质量的音频生成,支持多种采样率和频带配置。
下载量 273
发布时间 : 7/15/2024
模型介绍
内容详情
替代品

模型简介

BigVGAN是一个通用的神经声码器,能够从梅尔频谱生成高质量的音频波形。它通过大规模训练和优化的架构,实现了高效的音频合成。

模型特点

大规模训练
使用大规模混合数据集进行训练,涵盖多种音频类型,包括多语言语音、环境音和乐器音。
高性能推理
提供定制CUDA内核,支持融合上采样+激活操作,推理速度提升1.5至3倍。
多种配置支持
提供多种采样率(22kHz、24kHz、44kHz)和频带配置的预训练模型,适应不同应用场景。
改进的判别器与损失函数
采用多尺度子带CQT判别器和多尺度梅尔频谱损失进行训练,提升生成质量。

模型能力

高质量音频生成
梅尔频谱到波形转换
多采样率支持
快速推理

使用案例

语音合成
文本到语音系统
作为TTS系统的后端声码器,将梅尔频谱转换为自然语音波形。
生成高质量、自然的语音输出
音频增强
音频超分辨率
将低质量音频转换为高质量波形。
提升音频质量和清晰度
音乐生成
音乐合成
生成乐器音和环境音。
高质量音乐片段生成