B

Bigvgan Melspec

由 cckm 开发
基于BigVGAN的神经声码器,使用特定梅尔频谱输入进行训练,适用于高质量音频生成任务
下载量 16
发布时间 : 1/11/2025
模型介绍
内容详情
替代品

模型简介

该模型是基于NVIDIA BigVGAN的改进版本,针对特定梅尔频谱输入进行了优化训练,主要用于音频到音频的转换任务,能够生成高质量的音频输出。

模型特点

优化的梅尔频谱输入
使用特定配置的梅尔频谱作为输入,可能提高音频生成质量
高PESQ评分
在评估中获得4.340的PESQ分数,接近原始NVIDIA检查点的4.362分
兼容多种梅尔频谱配置
支持由vocos库生成的梅尔频谱特征

模型能力

音频生成
梅尔频谱转换
高质量语音合成

使用案例

语音合成
文本到语音系统
作为神经声码器用于TTS系统的后端
生成高质量语音输出
音频增强
语音质量提升
用于提升低质量音频的清晰度和自然度