magnet-small-10secs开源音频生成模型 - 依据文本描述免费打造高质量音频

首页

Magnet Small 10secs

由 facebook 开发

MAGNeT是一个文本到音乐和文本到声音的模型，能够根据文本描述生成高质量的音频样本。

音频生成 #文本生成音乐 #非自回归Transformer #32kHz高保真

下载量 976

发布时间 : 1/10/2024

模型简介

MAGNeT是一个基于32kHz EnCodec分词器的掩码生成非自回归Transformer，使用4个以50 Hz采样的码本进行训练。它不需要语义标记条件或模型级联，使用单一的非自回归Transformer生成所有4个码本。

模型特点

非自回归生成

使用单一的非自回归Transformer生成所有码本，无需级联模型

高质量音频生成

能够根据文本描述生成32kHz采样率的高质量音频样本

多样化风格支持

支持生成多种音乐风格，包括嘻哈、放克浩室、低保真等

模型能力

文本到音乐生成

文本到音效生成

短音频片段生成（10秒）

使用案例

音乐创作

背景音乐生成

为视频、播客等内容生成背景音乐

生成10秒长的音乐片段

音乐灵感探索

通过文本提示探索不同风格的音乐创作可能性

生成多样化的音乐样本

音效设计

游戏音效生成

为游戏场景生成环境音效

生成10秒长的音效片段

🚀 MAGNeT - 小型 - 3亿参数 - 10秒

MAGNeT 是一个文本到音乐和文本到声音的模型，能够根据文本描述生成高质量的音频样本。它是一个掩码生成式非自回归 Transformer，基于一个 32kHz 的 EnCodec 分词器进行训练，该分词器有 4 个码本，采样频率为 50Hz。与以往的工作不同，MAGNeT 既不需要语义令牌条件，也不需要模型级联，它使用单个非自回归 Transformer 生成所有 4 个码本。

🚀 快速开始

Audiocraft 使用方法

你可以通过原始的 Audiocraft 库在本地运行 MAGNeT：

首先安装 audiocraft 库

pip install git+https://github.com/facebookresearch/audiocraft.git

确保安装了 ffmpeg：

apt-get install ffmpeg

运行以下 Python 代码：

from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write

model = MAGNeT.get_pretrained("facebook/magnet-small-10secs")

descriptions = ["happy rock", "energetic EDM"]

wav = model.generate(descriptions)  # 生成 2 个样本。

for idx, one_wav in enumerate(wav):
    # 将以 -14 db LUFS 的响度归一化保存为 {idx}.wav。
    audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")

✨ 主要特性

文本到音乐和文本到声音：能够根据文本描述生成高质量的音频样本。
掩码生成式非自回归 Transformer：不需要语义令牌条件和模型级联，使用单个非自回归 Transformer 生成所有 4 个码本。

📚 详细文档

模型详情

开发组织：Meta AI 的 FAIR 团队。
模型日期：MAGNeT 在 2023 年 11 月至 2024 年 1 月期间进行训练。
模型版本：这是模型的第 1 版。
模型类型：MAGNeT 由一个用于音频分词的 EnCodec 模型和一个基于 Transformer 架构的非自回归语言模型组成，用于音乐建模。该模型有不同的大小：3 亿参数、15 亿参数；以及两种变体：一种是为文本到音乐生成任务训练的模型，另一种是为文本到音频生成训练的模型。
论文或更多信息资源：更多信息可以在论文 Masked Audio Generation using a Single Non - Autoregressive Transformer 中找到。
引用详情：

@misc{ziv2024masked,
      title={Masked Audio Generation using a Single Non-Autoregressive Transformer}, 
      author={Alon Ziv and Itai Gat and Gael Le Lan and Tal Remez and Felix Kreuk and Alexandre Défossez and Jade Copet and Gabriel Synnaeve and Yossi Adi},
      year={2024},
      eprint={2401.04577},
      archivePrefix={arXiv},
      primaryClass={cs.SD}
}

许可证：代码以 MIT 许可证发布，模型权重以 CC - BY - NC 4.0 许可证发布。
问题或评论反馈途径：关于 MAGNeT 的问题和评论可以通过项目的 Github 仓库发送，或者通过创建一个 issue。

预期用途

主要预期用途：MAGNeT 的主要用途是基于人工智能的音乐生成研究，包括：
- 研究工作，例如探索和更好地理解生成模型的局限性，以进一步推动科学发展。
- 由文本引导的音乐生成，供机器学习爱好者了解生成式人工智能模型的当前能力。
主要预期用户：该模型的主要预期用户是音频、机器学习和人工智能领域的研究人员，以及希望更好地了解这些模型的爱好者。
超出范围的用例：在没有进一步的风险评估和缓解措施的情况下，该模型不应用于下游应用。该模型不应被用于故意创建或传播会给人们带来敌意或疏离感的音乐作品。这包括生成人们可能会认为令人不安、苦恼或冒犯的音乐；或传播历史或当前刻板印象的内容。

指标

模型性能指标：我们使用以下客观指标在标准音乐基准上评估模型：
- 基于预训练音频分类器（VGGish）提取的特征计算的 Frechet 音频距离。
- 基于预训练音频分类器（PaSST）提取的标签分布的 Kullback - Leibler 散度。
- 从预训练 CLAP 模型提取的音频嵌入和文本嵌入之间的 CLAP 分数。此外，我们还进行了有人类参与者的定性研究，从以下方面评估模型的性能：
- 音乐样本的整体质量；
- 与提供的文本输入的文本相关性。关于性能指标和人类研究的更多详细信息可以在论文中找到。
决策阈值：不适用。

评估数据集

该模型在 MusicCaps 基准和一个领域内保留的评估集上进行评估，评估集与训练集没有艺术家重叠。

训练数据集

该模型在以下许可数据上进行训练：Meta 音乐倡议声音集、Shutterstock 音乐集和 Pond5 音乐集。有关训练集和相应预处理的更多详细信息，请参阅论文。

评估结果

以下是发布的模型在 MusicCaps 上获得的客观指标。请注意，对于公开发布的模型，我们使用了最先进的音乐源分离方法，即开源的 Hybrid Transformer for Music Source Separation（HT - Demucs），以仅保留器乐曲目。这解释了与论文中使用的模型在客观指标上的差异。

模型	Frechet 音频距离	KLD	文本一致性
facebook/magnet - small - 10secs	4.22	1.11	0.28
facebook/magnet - medium - 10secs	4.61	1.14	0.28
facebook/magnet - small - 30secs	4.35	1.17	0.28
facebook/magnet - medium - 30secs	4.63	1.20	0.28

Audio - MAGNeT - 音效生成模型

训练数据集

audio - magnet 模型在以下数据源上进行训练：AudioSet 的一个子集（Gemmeke 等人，2017 年）、[BBC 音效](https://sound - effects.bbcrewind.co.uk/)、AudioCaps（Kim 等人，2019 年）、Clotho v2（Drossos 等人，2020 年）、VGG - Sound（Chen 等人，2020 年）、FSD50K（Fonseca 等人，2021 年）、[Free To Use Sounds](https://www.freetousesounds.com/all - in - one - bundle/)、Sonniss Game Effects、[WeSoundEffects](https://wesoundeffects.com/we - sound - effects - bundle - 2020/)、[Paramount Motion - Odeon Cinematic Sound Effects](https://www.paramountmotion.com/odeon - sound - effects)。

评估数据集

audio - magnet 模型（音效生成）在 AudioCaps 基准上进行评估。

评估结果

以下是发布的 audio - magnet 模型在 AudioCaps（由 10 秒长的样本组成）上获得的客观指标。

模型	Frechet 音频距离	KLD
facebook/audio - magnet - small	3.21	1.42
facebook/audio - magnet - medium	2.32	1.64

🔧 技术细节

局限性和偏差

数据：用于训练模型的数据源由音乐专业人士创建，并与权利持有者签订了法律协议。该模型在 16000 小时的数据上进行训练，我们认为在更大的数据集上扩展模型可以进一步提高模型的性能。
缓解措施：使用相应的标签和最先进的音乐源分离方法，即开源的 Hybrid Transformer for Music Source Separation（HT - Demucs），从数据源中移除了包含人声的曲目。
局限性：
- 该模型无法生成逼真的人声。
- 该模型使用英语描述进行训练，在其他语言中的表现不佳。
- 该模型并非对所有音乐风格和文化都表现同样出色。
- 该模型有时会生成歌曲结尾，逐渐变为静音。
- 有时很难评估哪种类型的文本描述能提供最佳的生成效果。可能需要进行提示工程才能获得满意的结果。
偏差：数据源可能缺乏多样性，并非所有音乐文化在数据集中都得到了平等的体现。该模型在各种音乐流派上的表现可能不尽相同。模型生成的样本将反映训练数据中的偏差。对该模型的进一步研究应包括实现文化平衡和公正表示的方法，例如，扩大训练数据以使其既多样化又具有包容性。
风险和危害：模型的偏差和局限性可能导致生成被认为有偏差、不适当或冒犯性的样本。我们认为，提供重现研究和训练新模型的代码将有助于将应用扩展到新的、更具代表性的数据。
用例：用户必须了解该模型的偏差、局限性和风险。MAGNeT 是一个为人工智能音乐生成研究而开发的模型。因此，在没有进一步调查和缓解风险的情况下，它不应用于下游应用。