🚀 Audio-MAGNeT - Small - 300M
MAGNeT是一个文本到音乐和文本到声音的模型,能够根据文本描述生成高质量的音频样本。它采用Transformer架构,无需语义令牌调节或模型级联,就能高效生成音频。
🚀 快速开始
你可以通过原始的 Audiocraft库 在本地运行MAGNeT:
- 首先安装
audiocraft
库:
pip install git+https://github.com/facebookresearch/audiocraft.git
- 确保安装了
ffmpeg
:
apt-get install ffmpeg
- 运行以下Python代码:
from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write
model = MAGNeT.get_pretrained("facebook/audio-magnet-small")
descriptions = ["happy rock", "energetic EDM"]
wav = model.generate(descriptions)
for idx, one_wav in enumerate(wav):
audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")
✨ 主要特性
- 基于Transformer架构,无需语义令牌调节或模型级联,可根据文本描述生成高质量音频样本。
- 有不同大小和变体,适用于文本到音乐和文本到音频生成任务。
📦 安装指南
安装 audiocraft
库
pip install git+https://github.com/facebookresearch/audiocraft.git
安装 ffmpeg
apt-get install ffmpeg
💻 使用示例
基础用法
from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write
model = MAGNeT.get_pretrained("facebook/audio-magnet-small")
descriptions = ["happy rock", "energetic EDM"]
wav = model.generate(descriptions)
for idx, one_wav in enumerate(wav):
audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")
📚 详细文档
模型详情
属性 |
详情 |
开发组织 |
Meta AI的FAIR团队 |
模型日期 |
2023年11月至2024年1月训练 |
模型版本 |
版本1 |
模型类型 |
由用于音频标记化的EnCodec模型和基于Transformer架构的非自回归语言模型组成,有300M、1.5B等不同大小,以及文本到音乐生成和文本到音频生成两种变体 |
参考论文 |
Masked Audio Generation using a Single Non-Autoregressive Transformer |
引用详情 |
@misc{ziv2024masked, title={Masked Audio Generation using a Single Non-Autoregressive Transformer}, author={Alon Ziv and Itai Gat and Gael Le Lan and Tal Remez and Felix Kreuk and Alexandre Défossez and Jade Copet and Gabriel Synnaeve and Yossi Adi}, year={2024}, eprint={2401.04577}, archivePrefix={arXiv}, primaryClass={cs.SD}} |
许可证 |
代码采用MIT许可,模型权重采用CC - BY - NC 4.0许可 |
反馈渠道 |
可通过项目的 Github仓库 发送问题或评论,或提交issue |
预期用途
主要预期用途
- 基于AI的音乐生成研究,如探索和理解生成模型的局限性以改进科学现状。
- 由文本引导的音乐生成,供机器学习爱好者了解生成式AI模型的当前能力。
主要预期用户
音频、机器学习和人工智能领域的研究人员,以及希望更好理解这些模型的爱好者。
非预期用例
在未进行进一步风险评估和缓解的情况下,不得用于下游应用。不得用于故意创建或传播会给人造成敌对或疏离环境的音乐作品。
评估指标
模型性能指标
- 基于预训练音频分类器(VGGish)提取的特征计算的Frechet音频距离。
- 基于预训练音频分类器(PaSST)提取的标签分布的Kullback - Leibler散度。
- 基于预训练CLAP模型提取的音频嵌入和文本嵌入的CLAP得分。
定性研究
通过人类参与者进行定性研究,从以下方面评估模型性能:
评估数据集
模型在 MusicCaps基准 和一个域内保留评估集上进行评估,评估集与训练集无艺术家重叠。
训练数据集
模型在许可数据上进行训练,数据来源包括 Meta Music Initiative Sound Collection、Shutterstock音乐集 和 Pond5音乐集。
评估结果
以下是发布的模型在MusicCaps上获得的客观指标:
模型 |
Frechet音频距离 |
KLD |
文本一致性 |
facebook/magnet-small-10secs |
4.22 |
1.11 |
0.28 |
facebook/magnet-medium-10secs |
4.61 |
1.14 |
0.28 |
facebook/magnet-small-30secs |
4.35 |
1.17 |
0.28 |
facebook/magnet-medium-30secs |
4.63 |
1.20 |
0.28 |
音频MAGNeT - 音效生成模型
训练数据集
音频MAGNeT模型在以下数据源上进行训练:AudioSet的一个子集(Gemmeke等人,2017)、BBC音效、AudioCaps(Kim等人,2019)、Clotho v2(Drossos等人,2020)、VGG - Sound(Chen等人,2020)、FSD50K(Fonseca等人,2021)、Free To Use Sounds、Sonniss Game Effects、WeSoundEffects、Paramount Motion - Odeon Cinematic Sound Effects。
评估数据集
音频MAGNeT模型(音效生成)在 AudioCaps基准 上进行评估。
评估结果
以下是发布的音频MAGNeT模型在AudioCaps(由10秒长的样本组成)上获得的客观指标:
模型 |
Frechet音频距离 |
KLD |
facebook/audio-magnet-small |
3.21 |
1.42 |
facebook/audio-magnet-medium |
2.32 |
1.64 |
局限性和偏差
数据
模型训练使用的数据源由音乐专业人士创建,并与权利人签订了法律协议。模型在16000小时的数据上进行训练,扩大数据集规模可能会进一步提高模型性能。
缓解措施
使用相应标签和最先进的音乐源分离方法(如开源的 Hybrid Transformer for Music Source Separation (HT - Demucs))从数据源中移除包含人声的曲目。
局限性
- 无法生成逼真的人声。
- 用英语描述进行训练,在其他语言中的表现不佳。
- 对所有音乐风格和文化的表现不一致。
- 有时会生成歌曲结尾并陷入沉默。
- 有时难以确定哪种文本描述能产生最佳生成效果,可能需要进行提示工程。
偏差
数据源可能缺乏多样性,并非所有音乐文化在数据集中都有平等的代表。模型在各种音乐流派上的表现可能不一致,生成的样本会反映训练数据中的偏差。
风险和危害
模型的偏差和局限性可能导致生成被认为有偏差、不适当或冒犯性的样本。提供代码以重现研究和训练新模型有助于将应用扩展到更新和更具代表性的数据。
使用建议
用户必须了解模型的偏差、局限性和风险。MAGNeT是为音乐生成的人工智能研究而开发的模型,在未进行进一步调查和风险缓解的情况下,不得用于下游应用。
引用格式
@misc{ziv2024masked,
title={Masked Audio Generation using a Single Non-Autoregressive Transformer},
author={Alon Ziv and Itai Gat and Gael Le Lan and Tal Remez and Felix Kreuk and Alexandre Défossez and Jade Copet and Gabriel Synnaeve and Yossi Adi},
year={2024},
eprint={2401.04577},
archivePrefix={arXiv},
primaryClass={cs.SD}
}
许可证
代码采用MIT许可,模型权重采用CC - BY - NC 4.0许可。
反馈渠道
可通过项目的 Github仓库 发送问题或评论,或提交issue。