B

Bigvgan V2 44khz 128band 512x

由 nvidia 开发
BigVGAN是一种基于大规模训练的通用神经声码器,能够高质量地生成音频波形。
下载量 223.13k
发布时间 : 7/15/2024
模型介绍
内容详情
替代品

模型简介

BigVGAN是一种高性能的神经声码器,通过大规模训练实现通用音频生成,支持多种采样率和上采样率配置。

模型特点

大规模训练
使用包含多种音频类型的大规模数据集训练,涵盖多语言语音、环境音和乐器音。
高性能推理
提供融合的CUDA内核,在单块A100 GPU上速度提升1.5至3倍。
多种配置支持
提供多种音频配置的预训练检查点,支持最高44 kHz采样率和512倍上采样率。
改进的判别器
采用多尺度子带CQT判别器和多尺度梅尔频谱损失进行训练。

模型能力

高质量音频生成
梅尔频谱到波形转换
多采样率支持
快速推理

使用案例

语音合成
文本到语音系统
作为TTS系统的后端声码器,将梅尔频谱转换为自然语音波形。
生成高质量、自然的语音输出
音频增强
音频超分辨率
提升低质量音频的采样率和音质。
生成高保真音频输出
音乐生成
乐器音合成
生成各种乐器的音频波形。
生成高质量乐器音