Bigvgan Melspec

B

Bigvgan Melspec

由 cckm 开发

基于BigVGAN的神经声码器，使用特定梅尔频谱输入进行训练，适用于高质量音频生成任务

音频生成开源协议:MIT #高保真音频生成 #梅尔频谱转换 #神经声码器优化

下载量 16

发布时间 : 1/11/2025

模型简介

该模型是基于NVIDIA BigVGAN的改进版本，针对特定梅尔频谱输入进行了优化训练，主要用于音频到音频的转换任务，能够生成高质量的音频输出。

模型特点

优化的梅尔频谱输入

使用特定配置的梅尔频谱作为输入，可能提高音频生成质量

高PESQ评分

在评估中获得4.340的PESQ分数，接近原始NVIDIA检查点的4.362分

兼容多种梅尔频谱配置

支持由vocos库生成的梅尔频谱特征

模型能力

音频生成

梅尔频谱转换

高质量语音合成

使用案例

语音合成

文本到语音系统

作为神经声码器用于TTS系统的后端

生成高质量语音输出

音频增强

语音质量提升

用于提升低质量音频的清晰度和自然度

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24