B

Bigvgan V2 24khz 100band 256x

由 nvidia 开发
BigVGAN是一种高性能神经声码器,通过大规模训练实现高质量的音频合成,支持多种采样率和频带配置。
下载量 34.03k
发布时间 : 7/15/2024

模型简介

BigVGAN是一种通用神经声码器,能够将梅尔频谱转换为高质量的波形音频。它通过大规模训练和先进的架构设计,实现了优异的音频生成效果。

模型特点

大规模训练
使用包含多语言语音、环境音和乐器声的多样化音频数据集进行训练,提升模型的泛化能力。
高性能推理
提供定制CUDA内核,支持融合上采样+激活操作,推理速度提升1.5-3倍。
多配置支持
提供多种采样率(22kHz-44kHz)和频带配置的预训练模型,适应不同应用场景。
改进的判别器
采用多尺度子带CQT判别器和多尺度梅尔频谱损失训练,提升生成质量。

模型能力

梅尔频谱到波形转换
高质量音频合成
多采样率支持
快速推理

使用案例

语音合成
文本到语音系统
作为TTS系统的后端声码器,将梅尔频谱转换为自然语音波形。
生成高质量、自然的语音输出
音频增强
音频超分辨率
将低质量音频转换为高质量波形。
提升音频质量和清晰度
音乐生成
乐器声音合成
生成各种乐器的声音波形。
高质量乐器音色合成
AIbase
智启未来,您的人工智能解决方案智库
简体中文