BigVGAN v2开源音频合成模型 - 多采样率与频带配置，免费实现高质量音效！

首页

Bigvgan V2 24khz 100band 256x

由 nvidia 开发

BigVGAN是一种高性能神经声码器，通过大规模训练实现高质量的音频合成，支持多种采样率和频带配置。

音频生成开源协议:MIT #高保真音频合成 #多尺度梅尔频谱 #CUDA加速推理

下载量 34.03k

发布时间 : 7/15/2024

模型简介

BigVGAN是一种通用神经声码器，能够将梅尔频谱转换为高质量的波形音频。它通过大规模训练和先进的架构设计，实现了优异的音频生成效果。

模型特点

大规模训练

使用包含多语言语音、环境音和乐器声的多样化音频数据集进行训练，提升模型的泛化能力。

高性能推理

提供定制CUDA内核，支持融合上采样+激活操作，推理速度提升1.5-3倍。

多配置支持

提供多种采样率（22kHz-44kHz）和频带配置的预训练模型，适应不同应用场景。

改进的判别器

采用多尺度子带CQT判别器和多尺度梅尔频谱损失训练，提升生成质量。

模型能力

梅尔频谱到波形转换

高质量音频合成

多采样率支持

快速推理

使用案例

语音合成

文本到语音系统

作为TTS系统的后端声码器，将梅尔频谱转换为自然语音波形。

生成高质量、自然的语音输出

音频增强

音频超分辨率

将低质量音频转换为高质量波形。

提升音频质量和清晰度

音乐生成

乐器声音合成

生成各种乐器的声音波形。

高质量乐器音色合成

🚀 BigVGAN：大规模训练的通用神经声码器

BigVGAN是一种经过大规模训练的通用神经声码器，可用于音频生成，能将输入的音频特征转换为高质量的音频波形。

作者信息

Sang - gil Lee, Wei Ping, Boris Ginsburg, Bryan Catanzaro, Sungroh Yoon

论文影响力

[](https://paperswithcode.com/sota/speech - synthesis - on - libritts?p=bigvgan - a - universal - neural - vocoder - with - large)

模型图示

🚀 快速开始

📦 安装指南

本仓库包含预训练的BigVGAN检查点，可轻松进行推理，并额外支持huggingface_hub。

如果您对模型训练和其他功能感兴趣，请访问官方GitHub仓库获取更多信息：https://github.com/NVIDIA/BigVGAN

git lfs install
git clone https://huggingface.co/nvidia/bigvgan_v2_24khz_100band_256x

💻 使用示例

基础用法

以下示例描述了如何使用BigVGAN：从Hugging Face Hub加载预训练的BigVGAN生成器，从输入波形计算梅尔频谱图，并使用梅尔频谱图作为模型输入生成合成波形。

device = 'cuda'

import torch
import bigvgan
import librosa
from meldataset import get_mel_spectrogram

# 实例化模型。您可以选择设置use_cuda_kernel=True以加快推理速度。
model = bigvgan.BigVGAN.from_pretrained('nvidia/bigvgan_v2_24khz_100band_256x', use_cuda_kernel=False)

# 移除模型中的权重归一化并设置为评估模式
model.remove_weight_norm()
model = model.eval().to(device)

# 加载wav文件并计算梅尔频谱图
wav_path = '/path/to/your/audio.wav'
wav, sr = librosa.load(wav_path, sr=model.h.sampling_rate, mono=True) # wav是形状为[T_time]且值在[-1, 1]之间的np.ndarray
wav = torch.FloatTensor(wav).unsqueeze(0) # wav是形状为[B(1), T_time]的FloatTensor

# 从真实音频中计算梅尔频谱图
mel = get_mel_spectrogram(wav, model.h).to(device) # mel是形状为[B(1), C_mel, T_frame]的FloatTensor

# 从梅尔频谱图生成波形
with torch.inference_mode():
    wav_gen = model(mel) # wav_gen是形状为[B(1), 1, T_time]且值在[-1, 1]之间的FloatTensor
wav_gen_float = wav_gen.squeeze(0).cpu() # wav_gen是形状为[1, T_time]的FloatTensor

# 您可以将生成的波形转换为16位线性PCM
wav_gen_int16 = (wav_gen_float * 32767.0).numpy().astype('int16') # wav_gen现在是形状为[1, T_time]且数据类型为int16的np.ndarray

高级用法

使用自定义CUDA内核进行合成

您可以在实例化BigVGAN时使用参数use_cuda_kernel来应用快速CUDA推理内核：

import bigvgan
model = bigvgan.BigVGAN.from_pretrained('nvidia/bigvgan_v2_24khz_100band_256x', use_cuda_kernel=True)

首次应用时，它会使用nvcc和ninja构建内核。如果构建成功，内核将保存到alias_free_activation/cuda/build，模型会自动加载该内核。代码库已使用CUDA 12.1进行测试。

请确保您的系统中同时安装了这两个工具，并且系统中安装的nvcc版本与您的PyTorch版本相匹配。

如需详细信息，请参阅官方GitHub仓库：https://github.com/NVIDIA/BigVGAN?tab=readme-ov-file#using-custom-cuda-kernel-for-synthesis

📚 详细文档

预训练模型

我们在[Hugging Face Collections](https://huggingface.co/collections/nvidia/bigvgan - 66959df3d97fd7d98d97dc9a)上提供了预训练模型。您可以在列出的模型仓库中下载生成器权重（名为bigvgan_generator.pt）及其判别器/优化器状态（名为bigvgan_discriminator_optimizer.pt）的检查点。

模型名称	采样率	梅尔带数	fmax	上采样率	参数数量	数据集	步数	微调情况
bigvgan_v2_44khz_128band_512x	44 kHz	128	22050	512	122M	大规模编译数据集	5M	否
bigvgan_v2_44khz_128band_256x	44 kHz	128	22050	256	112M	大规模编译数据集	5M	否
bigvgan_v2_24khz_100band_256x	24 kHz	100	12000	256	112M	大规模编译数据集	5M	否
bigvgan_v2_22khz_80band_256x	22 kHz	80	11025	256	112M	大规模编译数据集	5M	否
bigvgan_v2_22khz_80band_fmax8k_256x	22 kHz	80	8000	256	112M	大规模编译数据集	5M	否
bigvgan_24khz_100band	24 kHz	100	12000	256	112M	LibriTTS	5M	否
bigvgan_base_24khz_100band	24 kHz	100	12000	256	14M	LibriTTS	5M	否
bigvgan_22khz_80band	22 kHz	80	8000	256	112M	LibriTTS + VCTK + LJSpeech	5M	否
bigvgan_base_22khz_80band	22 kHz	80	8000	256	14M	LibriTTS + VCTK + LJSpeech	5M	否