magnet-small-30secs开源音频生成模型 - 根据文本描述免费生成高质量音频

首页

Magnet Small 30secs

由 facebook 开发

MAGNeT是一个文本到音乐和文本到声音的模型，能够根据文本描述生成高质量的音频样本。

音频生成 #文本生成音乐 #非自回归Transformer #32kHz高保真

下载量 215

发布时间 : 1/10/2024

模型简介

MAGNeT是一个基于32kHz EnCodec分词器的掩码生成非自回归Transformer，使用4个以50Hz采样的码本。它不需要语义标记条件或模型级联，使用单一的非自回归Transformer生成所有4个码本。

模型特点

单一非自回归Transformer

使用单一的非自回归Transformer生成所有4个码本，无需模型级联。

高质量音频生成

能够根据文本描述生成高质量的音频样本。

多码本生成

使用4个以50Hz采样的码本进行音频生成。

模型能力

文本到音乐生成

文本到声音生成

高质量音频合成

使用案例

音乐创作

生成特定风格的音乐

根据文本描述生成特定风格的音乐，如80年代嘻哈风格的放克浩室音乐。

生成30秒的高质量音乐样本。

播客背景音乐

生成适合播客开场的吸引人节奏。

生成30秒的高质量背景音乐。

音效生成

生成特定音效

根据文本描述生成特定音效，如自然环境声音或机械声音。

生成30秒的高质量音效样本。

🚀 MAGNeT - 小型 - 3亿参数 - 30秒音频

MAGNeT是一个文本到音乐和文本到声音的模型，能够根据文本描述生成高质量的音频样本。它通过基于Transformer架构的非自回归模型，结合先进的音频编码技术，为用户提供了一种高效、灵活的音频生成解决方案。

🚀 快速开始

你可以通过原始的 Audiocraft库在本地运行MAGNeT：

首先安装 audiocraft 库

pip install git+https://github.com/facebookresearch/audiocraft.git

确保已安装 ffmpeg：

apt-get install ffmpeg

运行以下Python代码：

from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write

model = MAGNeT.get_pretrained("facebook/magnet-small-30secs")

descriptions = ["happy rock", "energetic EDM"]

wav = model.generate(descriptions)  # 生成2个样本。

for idx, one_wav in enumerate(wav):
    # 将以 -14 db LUFS 的响度归一化保存为 {idx}.wav。
    audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")

✨ 主要特性

MAGNeT是一个基于Transformer架构的非自回归模型，能够根据文本描述生成高质量的音频样本。
它采用了先进的音频编码技术，能够生成具有高保真度和多样性的音频。
该模型不需要语义令牌调节或模型级联，使用单个非自回归Transformer生成所有4个码本。

📦 安装指南

安装Audiocraft库

pip install git+https://github.com/facebookresearch/audiocraft.git

安装ffmpeg

apt-get install ffmpeg

💻 使用示例

基础用法

from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write

model = MAGNeT.get_pretrained("facebook/magnet-small-30secs")

descriptions = ["happy rock", "energetic EDM"]

wav = model.generate(descriptions)  # 生成2个样本。

for idx, one_wav in enumerate(wav):
    # 将以 -14 db LUFS 的响度归一化保存为 {idx}.wav。
    audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")

📚 详细文档

模型详情

属性	详情
开发组织	Meta AI的FAIR团队
模型日期	2023年11月至2024年1月
模型版本	版本1
模型类型	MAGNeT由用于音频标记化的EnCodec模型和基于Transformer架构的非自回归语言模型组成，用于音乐建模。模型有不同的大小：3亿参数、15亿参数；有两种变体：用于文本到音乐生成任务的模型和用于文本到音频生成的模型。
更多信息的论文或资源	使用单个非自回归Transformer进行掩码音频生成
引用详情	`@misc{ziv2024masked, title={Masked Audio Generation using a Single Non-Autoregressive Transformer}, author={Alon Ziv and Itai Gat and Gael Le Lan and Tal Remez and Felix Kreuk and Alexandre Défossez and Jade Copet and Gabriel Synnaeve and Yossi Adi}, year={2024}, eprint={2401.04577}, archivePrefix={arXiv}, primaryClass={cs.SD}}`
许可证	代码以MIT许可证发布，模型权重以CC - BY - NC 4.0许可证发布。
反馈渠道	有关MAGNeT的问题和评论可以通过项目的Github仓库发送，或通过创建问题来反馈。

预期用途

主要预期用途：MAGNeT的主要用途是基于人工智能的音乐生成研究，包括：研究工作，如探索和更好地理解生成模型的局限性，以进一步推动科学发展；由文本引导的音乐生成，供机器学习爱好者了解生成式AI模型的当前能力。
主要预期用户：该模型的主要预期用户是音频、机器学习和人工智能领域的研究人员，以及希望更好地理解这些模型的爱好者。
超出范围的用例：在没有进一步的风险评估和缓解措施的情况下，该模型不应用于下游应用。该模型不应被用于故意创建或传播会给人们造成敌对或疏离环境的音乐作品。这包括生成人们可预见会觉得不安、痛苦或冒犯的音乐；或传播历史或当前刻板印象的内容。

指标

模型性能指标：我们使用以下客观指标在标准音乐基准上评估模型：基于预训练音频分类器（VGGish）提取的特征计算的Fréchet音频距离；基于预训练音频分类器（PaSST）提取的标签分布计算的Kullback - Leibler散度；基于预训练CLAP模型提取的音频嵌入和文本嵌入之间的CLAP分数。此外，我们还进行了有人类参与者的定性研究，从以下方面评估模型的性能：音乐样本的整体质量；与提供的文本输入的文本相关性。更多关于性能指标和人类研究的详细信息可以在论文中找到。
决策阈值：不适用。

评估数据集

该模型在MusicCaps基准和一个领域内保留的评估集上进行了评估，评估集与训练集没有艺术家重叠。

训练数据集

该模型在使用以下来源的许可数据上进行训练：Meta音乐倡议声音集、Shutterstock音乐集和Pond5音乐集。有关训练集和相应预处理的更多详细信息，请参阅论文。

评估结果

以下是发布的模型在MusicCaps上获得的客观指标。请注意，对于公开发布的模型，我们使用了最先进的音乐源分离方法，即开源的用于音乐源分离的混合Transformer（HT - Demucs），以仅保留器乐曲目。这解释了与论文中使用的模型在客观指标上的差异。

模型	Fréchet音频距离	KLD	文本一致性
facebook/magnet - small - 10secs	4.22	1.11	0.28
facebook/magnet - medium - 10secs	4.61	1.14	0.28
facebook/magnet - small - 30secs	4.35	1.17	0.28
facebook/magnet - medium - 30secs	4.63	1.20	0.28

局限性和偏差

数据：用于训练模型的数据源由音乐专业人士创建，并与权利持有者签订了法律协议。模型在16000小时的数据上进行训练，我们认为在更大的数据集上扩展模型可以进一步提高模型的性能。
缓解措施：使用相应的标签和最先进的音乐源分离方法，即开源的用于音乐源分离的混合Transformer（HT - Demucs），从数据源中移除了包含人声的曲目。
局限性：模型无法生成逼真的人声；模型使用英文描述进行训练，在其他语言中的表现不佳；模型并非对所有音乐风格和文化都有同样好的表现；模型有时会生成歌曲结尾，陷入沉默；有时很难评估哪种类型的文本描述能提供最佳的生成效果，可能需要进行提示工程以获得满意的结果。
偏差：数据源可能缺乏多样性，所有音乐文化在数据集中的代表性不均等。模型在各种音乐流派上的表现可能不同。模型生成的样本将反映训练数据中的偏差。对该模型的进一步研究应包括实现文化平衡和公正表示的方法，例如，通过扩展训练数据使其既多样化又具包容性。
风险和危害：模型的偏差和局限性可能导致生成被认为有偏差、不适当或冒犯性的样本。我们相信提供重现研究和训练新模型的代码将有助于将应用扩展到更新和更具代表性的数据上。
使用案例：用户必须了解模型的偏差、局限性和风险。MAGNeT是一个为音乐生成的人工智能研究而开发的模型。因此，在没有进一步调查和缓解风险的情况下，它不应用于下游应用。

Audio - MAGNeT - 音效生成模型

训练数据集：audio - magnet模型在以下数据源上进行训练：AudioSet的一个子集（Gemmeke等人，2017）、[BBC音效](https://sound - effects.bbcrewind.co.uk/)、AudioCaps（Kim等人，2019）、Clotho v2（Drossos等人，2020）、VGG - Sound（Chen等人，2020）、FSD50K（Fonseca等人，2021）、[免费使用音效](https://www.freetousesounds.com/all - in - one - bundle/)、Sonniss游戏音效、[WeSoundEffects](https://wesoundeffects.com/we - sound - effects - bundle - 2020/)、[派拉蒙电影 - 奥登电影音效](https://www.paramountmotion.com/odeon - sound - effects)。
评估数据集：audio - magnet模型（音效生成）在AudioCaps基准上进行评估。
评估结果：以下是发布的audio - magnet模型在AudioCaps（由10秒长的样本组成）上获得的客观指标。 | 模型 | Fréchet音频距离 | KLD | |---|---|---| | facebook/audio - magnet - small | 3.21 | 1.42 | | facebook/audio - magnet - medium | 2.32 | 1.64 |