encodec_32khz开源音频编解码器 - 高保真实时编码，为音乐创作助力

首页

Encodec 32khz

由 facebook 开发

Meta AI开发的高保真实时神经音频编解码器，专为MusicGen项目训练

音频生成

Transformers

#实时音频压缩 #高保真编解码 #音乐生成专用

下载量 348.00k

发布时间 : 6/15/2023

模型简介

EnCodec是一种利用神经网络的实时音频编解码器，支持高质量音频压缩与高效解码，可与MusicGen模型配合使用

模型特点

高保真音频压缩

采用端到端训练方式，生成高质量音频样本，有效减少伪影

实时处理能力

支持流式和非流式两种工作模式，满足不同场景需求

创新训练机制

通过多尺度频谱对抗器和损失平衡机制实现稳定高效训练

带宽可调

支持在编码和解码时指定不同带宽，适应多种应用场景

模型能力

音频压缩

音频解压缩

实时音频处理

高质量音频生成

使用案例

音乐生成

配合MusicGen使用

作为MusicGen模型的音频编解码组件

实现高质量音乐生成与压缩

音频处理

独立音频编解码

单独用于音频文件的压缩与解压缩

提供高保真音频压缩效果

🚀 EnCodec模型卡片

EnCodec 32kHz是Meta AI开发的一款先进的实时音频编解码器。本模型卡片将为你详细介绍该模型，此EnCodec检查点是作为MusicGen项目的一部分专门训练的，旨在与MusicGen模型配合使用。

encodec image

📚 详细文档

模型描述

EnCodec是一种利用神经网络的高保真音频编解码器。它引入了一种具有量化潜在空间的流式编码器 - 解码器架构，并以端到端的方式进行训练。该模型使用单一的多尺度频谱图对抗器简化并加速了训练过程，能有效减少伪影并生成高质量样本。此外，它还包含一种新颖的损失平衡机制，通过将超参数的选择与典型的损失规模解耦来稳定训练。同时，使用轻量级Transformer模型在保持实时性能的同时进一步压缩所获得的表示。此版本的EnCodec在20k音乐数据上进行训练，这些数据包括一个包含10K高质量音乐曲目的内部数据集，以及ShutterStock和Pond5音乐数据集。

属性	详情
开发者	Meta AI
模型类型	音频编解码器

模型来源

仓库地址：GitHub仓库
相关论文：Simple and Controllable Music Generation

✨ 主要特性

直接使用

EnCodec可直接用作音频编解码器，用于音频信号的实时压缩和解压缩。它能提供高质量的音频压缩和高效的解码。该模型在多种带宽上进行了训练，这些带宽可以在编码（压缩）和解码（解压缩）时指定。EnCodec有两种不同的设置：

非流式：将输入音频分割成1秒的块，重叠10毫秒，然后进行编码。
流式：在卷积层上使用权重归一化，输入音频不分割成块，而是在左侧进行填充。

下游使用

此版本的EnCodec旨在与官方的MusicGen检查点配合使用。不过，它也可以独立用于编码音频文件。

📦 安装指南

使用以下代码，结合LibriSpeech数据集中的一个示例（约9MB），开始使用EnCodec模型。首先，安装所需的Python包：

pip install --upgrade pip
pip install --upgrade transformers datasets[audio]

💻 使用示例

基础用法

from datasets import load_dataset, Audio
from transformers import EncodecModel, AutoProcessor

# load a demonstration datasets
librispeech_dummy = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")

# load the model + processor (for pre-processing the audio)
model = EncodecModel.from_pretrained("facebook/encodec_48khz")
processor = AutoProcessor.from_pretrained("facebook/encodec_48khz")

# cast the audio data to the correct sampling rate for the model
librispeech_dummy = librispeech_dummy.cast_column("audio", Audio(sampling_rate=processor.sampling_rate))
audio_sample = librispeech_dummy[0]["audio"]["array"]

# pre-process the inputs
inputs = processor(raw_audio=audio_sample, sampling_rate=processor.sampling_rate, return_tensors="pt")

# explicitly encode then decode the audio inputs
encoder_outputs = model.encode(inputs["input_values"], inputs["padding_mask"])
audio_values = model.decode(encoder_outputs.audio_codes, encoder_outputs.audio_scales, inputs["padding_mask"])[0]

# or the equivalent with a forward pass
audio_values = model(inputs["input_values"], inputs["padding_mask"]).audio_values

🔍 评估

评估结果请参考MusicGen评估分数。

🔧 技术细节

EnCodec是一款先进的实时神经音频压缩模型，能够在各种采样率和带宽下出色地生成高保真音频样本。该模型的性能在不同设置下进行了评估，范围从1.5 kbps的24kHz单声道到48kHz立体声，展示了主观和客观的结果。值得注意的是，EnCodec采用了一种新颖的仅频谱图对抗损失，有效减少了伪影并提高了样本质量。通过引入用于损失权重的梯度平衡器，进一步提高了训练的稳定性和可解释性。此外，研究表明，在不影响质量的情况下，特别是在对低延迟要求不高的应用（如音乐流）中，可以使用紧凑的Transformer模型将带宽再降低40%。

📄 许可证

引用信息

BibTeX：

@misc{copet2023simple,
      title={Simple and Controllable Music Generation}, 
      author={Jade Copet and Felix Kreuk and Itai Gat and Tal Remez and David Kant and Gabriel Synnaeve and Yossi Adi and Alexandre Défossez},
      year={2023},
      eprint={2306.05284},
      archivePrefix={arXiv},
      primaryClass={cs.SD}
}