audio - magnet - small开源音频模型 - 免费部署，依文本描述生成高质量音频样本

首页

Audio Magnet Small

由 facebook 开发

MAGNeT 是一款文本到音乐和文本到声音的模型，能够根据文本描述生成高质量的音频样本。它是一个基于掩码生成非自回归Transformer的模型，使用32kHz EnCodec分词器。

音频生成 #非自回归音频生成 #文本引导音乐合成 #32kHz高保真

下载量 161

发布时间 : 1/10/2024

模型简介

MAGNeT是一个基于非自回归Transformer的音频生成模型，能够根据文本描述生成音乐和音效。它不需要语义标记条件或模型级联，通过单个Transformer生成所有码本。

模型特点

非自回归生成

通过单个非自回归Transformer同时生成所有码本，无需级联模型

高质量音频生成

能够生成32kHz采样率的高质量音乐和音效样本

简化流程

不需要语义标记条件，简化了生成流程

多样化应用

支持音乐和音效两种生成任务，具有广泛的应用场景

模型能力

文本到音乐生成

文本到音效生成

高质量音频合成

多风格音乐创作

使用案例

音乐创作

音乐生成

根据文本描述生成各种风格的音乐片段

可生成欢快的摇滚、充满活力的电子舞曲等风格音乐

音效设计

音效生成

根据文本描述生成各种环境音效和特殊效果音

可生成自然环境音、机械音效等

研究应用

生成模型研究

用于探索音频生成模型的局限性和可能性

推动音频生成领域的科学进步

🚀 Audio-MAGNeT - Small - 300M

MAGNeT是一个文本到音乐和文本到声音的模型，能够根据文本描述生成高质量的音频样本。它采用Transformer架构，无需语义令牌调节或模型级联，就能高效生成音频。

🚀 快速开始

你可以通过原始的 Audiocraft库在本地运行MAGNeT：

首先安装 audiocraft 库：

pip install git+https://github.com/facebookresearch/audiocraft.git

确保安装了 ffmpeg：

apt-get install ffmpeg

运行以下Python代码：

from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write

model = MAGNeT.get_pretrained("facebook/audio-magnet-small")

descriptions = ["happy rock", "energetic EDM"]

wav = model.generate(descriptions)  # 生成2个样本。

for idx, one_wav in enumerate(wav):
    # 将以 -14 db LUFS 的响度标准化保存为 {idx}.wav。
    audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")

✨ 主要特性

基于Transformer架构，无需语义令牌调节或模型级联，可根据文本描述生成高质量音频样本。
有不同大小和变体，适用于文本到音乐和文本到音频生成任务。

📦 安装指南

安装 `audiocraft` 库

pip install git+https://github.com/facebookresearch/audiocraft.git

安装 `ffmpeg`

apt-get install ffmpeg

💻 使用示例

基础用法

from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write

model = MAGNeT.get_pretrained("facebook/audio-magnet-small")

descriptions = ["happy rock", "energetic EDM"]

wav = model.generate(descriptions)  # 生成2个样本。

for idx, one_wav in enumerate(wav):
    # 将以 -14 db LUFS 的响度标准化保存为 {idx}.wav。
    audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")

📚 详细文档

模型详情

属性	详情
开发组织	Meta AI的FAIR团队
模型日期	2023年11月至2024年1月训练
模型版本	版本1
模型类型	由用于音频标记化的EnCodec模型和基于Transformer架构的非自回归语言模型组成，有300M、1.5B等不同大小，以及文本到音乐生成和文本到音频生成两种变体
参考论文	Masked Audio Generation using a Single Non-Autoregressive Transformer
引用详情	`@misc{ziv2024masked, title={Masked Audio Generation using a Single Non-Autoregressive Transformer}, author={Alon Ziv and Itai Gat and Gael Le Lan and Tal Remez and Felix Kreuk and Alexandre Défossez and Jade Copet and Gabriel Synnaeve and Yossi Adi}, year={2024}, eprint={2401.04577}, archivePrefix={arXiv}, primaryClass={cs.SD}}`
许可证	代码采用MIT许可，模型权重采用CC - BY - NC 4.0许可
反馈渠道	可通过项目的 Github仓库发送问题或评论，或提交issue

预期用途

主要预期用途

基于AI的音乐生成研究，如探索和理解生成模型的局限性以改进科学现状。
由文本引导的音乐生成，供机器学习爱好者了解生成式AI模型的当前能力。

主要预期用户

音频、机器学习和人工智能领域的研究人员，以及希望更好理解这些模型的爱好者。

非预期用例

在未进行进一步风险评估和缓解的情况下，不得用于下游应用。不得用于故意创建或传播会给人造成敌对或疏离环境的音乐作品。

评估指标

模型性能指标

基于预训练音频分类器（VGGish）提取的特征计算的Frechet音频距离。
基于预训练音频分类器（PaSST）提取的标签分布的Kullback - Leibler散度。
基于预训练CLAP模型提取的音频嵌入和文本嵌入的CLAP得分。

定性研究

通过人类参与者进行定性研究，从以下方面评估模型性能：

音乐样本的整体质量。
与提供的文本输入的相关性。

评估数据集

模型在 MusicCaps基准和一个域内保留评估集上进行评估，评估集与训练集无艺术家重叠。

训练数据集

模型在许可数据上进行训练，数据来源包括 Meta Music Initiative Sound Collection、Shutterstock音乐集和 Pond5音乐集。

评估结果

以下是发布的模型在MusicCaps上获得的客观指标：

模型	Frechet音频距离	KLD	文本一致性
facebook/magnet-small-10secs	4.22	1.11	0.28
facebook/magnet-medium-10secs	4.61	1.14	0.28
facebook/magnet-small-30secs	4.35	1.17	0.28
facebook/magnet-medium-30secs	4.63	1.20	0.28

音频MAGNeT - 音效生成模型

训练数据集

音频MAGNeT模型在以下数据源上进行训练：AudioSet的一个子集（Gemmeke等人，2017）、BBC音效、AudioCaps（Kim等人，2019）、Clotho v2（Drossos等人，2020）、VGG - Sound（Chen等人，2020）、FSD50K（Fonseca等人，2021）、Free To Use Sounds、Sonniss Game Effects、WeSoundEffects、Paramount Motion - Odeon Cinematic Sound Effects。

评估数据集

音频MAGNeT模型（音效生成）在 AudioCaps基准上进行评估。

评估结果

以下是发布的音频MAGNeT模型在AudioCaps（由10秒长的样本组成）上获得的客观指标：

模型	Frechet音频距离	KLD
facebook/audio-magnet-small	3.21	1.42
facebook/audio-magnet-medium	2.32	1.64

局限性和偏差

数据

模型训练使用的数据源由音乐专业人士创建，并与权利人签订了法律协议。模型在16000小时的数据上进行训练，扩大数据集规模可能会进一步提高模型性能。

缓解措施

使用相应标签和最先进的音乐源分离方法（如开源的 Hybrid Transformer for Music Source Separation （HT - Demucs））从数据源中移除包含人声的曲目。

局限性

无法生成逼真的人声。
用英语描述进行训练，在其他语言中的表现不佳。
对所有音乐风格和文化的表现不一致。
有时会生成歌曲结尾并陷入沉默。
有时难以确定哪种文本描述能产生最佳生成效果，可能需要进行提示工程。

偏差

数据源可能缺乏多样性，并非所有音乐文化在数据集中都有平等的代表。模型在各种音乐流派上的表现可能不一致，生成的样本会反映训练数据中的偏差。

风险和危害

模型的偏差和局限性可能导致生成被认为有偏差、不适当或冒犯性的样本。提供代码以重现研究和训练新模型有助于将应用扩展到更新和更具代表性的数据。

使用建议

用户必须了解模型的偏差、局限性和风险。MAGNeT是为音乐生成的人工智能研究而开发的模型，在未进行进一步调查和风险缓解的情况下，不得用于下游应用。

引用格式

@misc{ziv2024masked,
      title={Masked Audio Generation using a Single Non-Autoregressive Transformer}, 
      author={Alon Ziv and Itai Gat and Gael Le Lan and Tal Remez and Felix Kreuk and Alexandre Défossez and Jade Copet and Gabriel Synnaeve and Yossi Adi},
      year={2024},
      eprint={2401.04577},
      archivePrefix={arXiv},
      primaryClass={cs.SD}
}