B

Bigvgan V2 22khz 80band 256x

由 nvidia 开发
BigVGAN是基于大规模训练的通用神经声码器,能够从梅尔频谱生成高质量音频波形。
下载量 503.23k
发布时间 : 7/15/2024
模型介绍
内容详情
替代品

模型简介

BigVGAN是一个高性能神经声码器,通过大规模训练支持多种音频类型,包括语音、环境音和乐器音。最新版本v2通过定制CUDA内核显著提升了推理速度。

模型特点

高性能推理
通过定制CUDA内核实现1.5-3倍的推理速度提升
大规模训练
使用多样化音频数据集训练,支持多种音频类型
高质量音频生成
在LibriTTS等基准测试上达到state-of-the-art效果
多配置支持
提供多种采样率(22kHz/24kHz/44kHz)和上采样倍数的预训练模型

模型能力

从梅尔频谱生成高质量音频
支持多种采样率音频生成
快速推理(使用CUDA内核)

使用案例

语音合成
TTS系统后端
作为文本到语音系统的声码器组件
生成自然流畅的语音
音频增强
音频超分辨率
提升低质量音频的采样率和清晰度