推理: true
标签:
许可证: cc-by-nc-4.0
流水线标签: 文本转音频
小部件:
- 文本: "带有80年代嘻哈风格的放克浩室音乐"
示例标题: "提示1"
- 文本: "受低保真、弛放电子和慢节奏影响的轻松歌曲"
示例标题: "提示2"
- 文本: "播客开场吸引人的节奏"
示例标题: "提示3"
MAGNeT - 中型 - 1.5B - 10秒
MAGNeT是一个文本转音乐和文本转声音的模型,能够根据文本描述生成高质量的音频样本。
它是一个基于32kHz EnCodec分词器的掩码生成非自回归Transformer,使用4个以50Hz采样的码本。
与之前的工作不同,MAGNeT既不需要语义标记条件,也不需要模型级联,它使用单一的非自回归Transformer生成所有4个码本。
MAGNeT由Alon Ziv, Itai Gat, Gael Le Lan, Tal Remez, Felix Kreuk, Alexandre Défossez, Jade Copet, Gabriel Synnaeve, Yossi Adi在使用单一非自回归Transformer的掩码音频生成中发表。
发布了六个检查点:
🤗 Transformers 使用
即将推出...
Audiocraft 使用
您可以通过原始的Audiocraft库本地运行MAGNeT:
- 首先安装
audiocraft
库
pip install git+https://github.com/facebookresearch/audiocraft.git
- 确保已安装
ffmpeg
:
apt-get install ffmpeg
- 运行以下Python代码:
from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write
model = MAGNeT.get_pretrained("facebook/magnet-medium-10secs")
descriptions = ["欢快的摇滚", "充满活力的电子舞曲"]
wav = model.generate(descriptions)
for idx, one_wav in enumerate(wav):
audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")
模型详情
开发模型的组织: Meta AI的FAIR团队。
模型日期: MAGNeT在2023年11月至2024年1月期间训练。
模型版本: 这是模型的第1版。
模型类型: MAGNeT由用于音频标记化的EnCodec模型和基于Transformer架构的非自回归语言模型组成,用于音乐建模。模型有不同的规模:300M、1.5B;以及两种变体:一种用于文本转音乐生成任务,另一种用于文本转音频生成。
论文或更多信息的资源: 更多信息可以在论文使用单一非自回归Transformer的掩码音频生成中找到。
引用详情:
@misc{ziv2024masked,
title={使用单一非自回归Transformer的掩码音频生成},
author={Alon Ziv and Itai Gat and Gael Le Lan and Tal Remez and Felix Kreuk and Alexandre Défossez and Jade Copet and Gabriel Synnaeve and Yossi Adi},
year={2024},
eprint={2401.04577},
archivePrefix={arXiv},
primaryClass={cs.SD}
}
许可证: 代码根据MIT发布,模型权重根据CC-BY-NC 4.0发布。
发送关于模型的问题或评论的地方: 关于MAGNeT的问题和评论可以通过项目的Github仓库发送,或通过提交问题。
预期用途
主要预期用途: MAGNeT的主要用途是基于AI的音乐生成研究,包括:
- 研究工作,如探索和更好地理解生成模型的局限性,以进一步提高科学水平
- 通过文本引导生成音乐,以了解机器学习爱好者对生成AI模型当前能力的理解
主要预期用户: 模型的主要预期用户是音频、机器学习和人工智能领域的研究人员,以及寻求更好地理解这些模型的业余爱好者。
超出范围的用例: 该模型不应在没有进一步风险评估和缓解的情况下用于下游应用。该模型不应被用于故意创建或传播为人们创造敌对或疏远环境的音乐作品。这包括生成人们可预见地感到不安、痛苦或冒犯的音乐;或传播历史或当前刻板印象的内容。
指标
模型性能测量: 我们使用以下客观测量在标准音乐基准上评估模型:
- 基于预训练音频分类器(VGGish)提取的特征计算的Frechet音频距离
- 基于预训练音频分类器(PaSST)提取的标签分布的Kullback-Leibler散度
- 基于预训练CLAP模型提取的音频嵌入和文本嵌入之间的CLAP分数
此外,我们还进行了人类参与者的定性研究,评估模型在以下方面的表现:
更多关于性能测量和人类研究的细节可以在论文中找到。
决策阈值: 不适用。
评估数据集
该模型在MusicCaps基准和一个域内保留的评估集上进行了评估,与训练集没有艺术家重叠。
训练数据集
该模型使用以下来源的许可数据进行训练:Meta音乐倡议声音集合、Shutterstock音乐集合和Pond5音乐集合。有关训练集和相应预处理的更多细节,请参阅论文。
评估结果
以下是公开发布模型在MusicCaps上获得的客观指标。请注意,对于公开发布的模型,我们使用了最先进的音乐源分离方法,即开源的用于音乐源分离的混合Transformer(HT-Demucs),以仅保留器乐轨道。这解释了与论文中使用的模型在客观指标上的差异。
模型 |
Frechet音频距离 |
KLD |
文本一致性 |
facebook/magnet-small-10secs |
4.22 |
1.11 |
0.28 |
facebook/magnet-medium-10secs |
4.61 |
1.14 |
0.28 |
facebook/magnet-small-30secs |
4.35 |
1.17 |
0.28 |
facebook/magnet-medium-30secs |
4.63 |
1.20 |
0.28 |
更多信息可以在论文使用单一非自回归Transformer的掩码音频生成的结果部分找到。
局限性和偏见
数据: 用于训练模型的数据源由音乐专业人士创建,并受与权利持有人的法律协议保护。模型在16K小时的数据上训练,我们相信在更大的数据集上扩展模型可以进一步提高模型的性能。
缓解措施: 使用相应标签和状态最先进的音乐源分离方法,即使用开源的用于音乐源分离的混合Transformer(HT-Demucs),从数据源中删除了包含人声的轨道。
局限性:
- 模型无法生成真实的人声。
- 模型使用英语描述进行训练,在其他语言中表现不佳。
- 模型并非对所有音乐风格和文化都表现良好。
- 模型有时会生成歌曲的结尾,陷入静默。
- 有时难以评估哪种类型的文本描述能提供最佳生成。可能需要提示工程以获得满意的结果。
偏见: 数据源可能缺乏多样性,并非所有音乐文化在数据集中都得到平等代表。模型在存在的各种音乐类型上表现可能不均。模型的生成样本将反映训练数据中的偏见。进一步的工作应包括平衡和公正代表文化的方法,例如通过扩展训练数据使其既多样又包容。
风险和危害: 模型的偏见和局限性可能导致生成被认为有偏见、不适当或冒犯的样本。我们相信,提供重现研究和训练新模型的代码将允许扩展到新的更具代表性的数据。
用例: 用户必须了解模型的偏见、局限性和风险。MAGNeT是一个为音乐生成的AI研究开发的模型。因此,在没有进一步调查和缓解风险的情况下,不应将其用于下游应用。
音频-MAGNeT - 音效生成模型
训练数据集
音频-magnet模型在以下数据源上训练:AudioSet的一个子集(Gemmeke等,2017)、BBC音效、AudioCaps(Kim等,2019)、Clotho v2(Drossos等,2020)、VGG-Sound(Chen等,2020)、FSD50K(Fonseca等,2021)、免费使用声音、Sonniss游戏效果、WeSoundEffects、Paramount Motion - Odeon电影音效。
评估数据集
音频-magnet模型(音效生成)在AudioCaps基准上进行了评估。
评估结果
以下是发布的音频-magnet模型在AudioCaps(包含10秒长的样本)上获得的客观指标。
模型 |
Frechet音频距离 |
KLD |
facebook/audio-magnet-small |
3.21 |
1.42 |
facebook/audio-magnet-medium |
2.32 |
1.64 |