推理: 关闭

EnCodec模型卡
本模型卡提供关于EnCodec 32kHz的详细信息,这是Meta AI开发的尖端实时音频编解码器。该EnCodec检查点是专为MusicGen项目训练而成,旨在与MusicGen模型配合使用。
模型详情
模型描述
EnCodec是一种利用神经网络的高保真音频编解码器。它采用端到端训练方式,引入了具有量化潜在空间的流式编解码架构。该模型通过单一多尺度频谱对抗器简化并加速训练,有效减少伪影并生成高质量样本。其创新性的损失平衡机制通过解耦超参数选择与损失典型规模,使训练更加稳定。此外,采用轻量级Transformer模型在保持实时性能的同时进一步压缩表征。此版本EnCodec基于2万首音乐数据训练,包含1万首高质量内部音乐曲目及ShutterStock与Pond5音乐数据集。
- 开发机构: Meta AI
- 模型类型: 音频编解码器
模型来源
用途
直接使用
EnCodec可直接作为实时音频信号压缩/解压缩编解码器,提供高质量音频压缩与高效解码。支持在编码(压缩)和解码(解压缩)时指定不同带宽。提供两种工作模式:
- 非流式模式:将输入音频分割为1秒片段(10毫秒重叠)后编码
- 流式模式:对卷积层使用权重归一化,不对输入分块而是左侧填充
下游应用
此版本EnCodec设计用于配合官方MusicGen检查点使用,也可独立用于音频文件编码。
快速开始
使用以下代码通过LibriSpeech数据集(~9MB)的示例快速体验。首先安装依赖:
pip install --upgrade pip
pip install --upgrade transformers datasets[audio]
然后加载音频样本并运行模型前向传播:
from datasets import load_dataset, Audio
from transformers import EncodecModel, AutoProcessor
librispeech_dummy = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
model = EncodecModel.from_pretrained("facebook/encodec_48khz")
processor = AutoProcessor.from_pretrained("facebook/encodec_48khz")
librispeech_dummy = librispeech_dummy.cast_column("audio", Audio(sampling_rate=processor.sampling_rate))
audio_sample = librispeech_dummy[0]["audio"]["array"]
inputs = processor(raw_audio=audio_sample, sampling_rate=processor.sampling_rate, return_tensors="pt")
encoder_outputs = model.encode(inputs["input_values"], inputs["padding_mask"])
audio_values = model.decode(encoder_outputs.audio_codes, encoder_outputs.audio_scales, inputs["padding_mask"])[0]
audio_values = model(inputs["input_values"], inputs["padding_mask"]).audio_values
评估
评估结果请参考MusicGen评估分数。
概述
EnCodec是尖端的实时神经音频压缩模型,能在不同采样率和带宽下生成高保真音频样本。模型在24kHz单声道1.5kbps至48kHz立体声等多种配置下均经过主客观评估。其创新性地采用纯频谱对抗损失,有效降低伪影并提升样本质量。通过梯度平衡器增强损失权重的训练稳定性与可解释性。研究还表明,在不要求低延迟的场景(如音乐流媒体),紧凑型Transformer模型可实现额外40%带宽压缩且不损失质量。
引用
BibTeX格式:
@misc{copet2023simple,
title={Simple and Controllable Music Generation},
author={Jade Copet and Felix Kreuk and Itai Gat and Tal Remez and David Kant and Gabriel Synnaeve and Yossi Adi and Alexandre Défossez},
year={2023},
eprint={2306.05284},
archivePrefix={arXiv},
primaryClass={cs.SD}
}