许可协议:知识共享署名-非商业性使用 4.0
标签:
MusicGen - 旋律版 - 15亿参数
Audiocraft为MusicGen提供了代码和模型,这是一个简单可控的音乐生成模型。
MusicGen是一个单阶段自回归Transformer模型,基于32kHz EnCodec标记器训练,使用4个以50Hz采样的码本。
与MusicLM等现有方法不同,MusicGen不需要自监督的语义表示,并能一次性生成所有4个码本。
通过在码本之间引入微小延迟,我们实现了并行预测,使得每秒音频仅需50个自回归步骤。
MusicGen由Jade Copet, Felix Kreuk, Itai Gat, Tal Remez, David Kant, Gabriel Synnaeve, Yossi Adi, Alexandre Défossez在论文《简单可控的音乐生成》中发表。
发布四个预训练模型:
示例
亲自体验MusicGen!
- 首先安装
audiocraft
库
pip install git+https://github.com/facebookresearch/audiocraft.git
- 确保已安装
ffmpeg
:
apt get install ffmpeg
- 运行以下Python代码:
import torchaudio
from audiocraft.models import MusicGen
from audiocraft.data.audio import audio_write
model = MusicGen.get_pretrained('melody')
model.set_generation_params(duration=8)
descriptions = ['欢快的摇滚', '动感的电子舞曲', '忧伤的爵士乐']
melody, sr = torchaudio.load('./assets/bach.mp3')
wav = model.generate_with_chroma(descriptions, melody[None].expand(3, -1, -1), sr)
for idx, one_wav in enumerate(wav):
audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")
模型详情
开发机构: Meta AI的FAIR团队
训练时间: 2023年4月至5月
版本: 第一版
类型: MusicGen包含用于音频标记化的EnCodec模型和基于Transformer架构的自回归语言模型。模型提供不同规模(3亿/15亿/33亿参数)及两种变体:文本生成音乐模型和旋律引导生成模型。
更多信息: 详见论文《简单可控的音乐生成》
引用格式:
@misc{copet2023simple,
title={Simple and Controllable Music Generation},
author={Jade Copet and Felix Kreuk and Itai Gat and Tal Remez and David Kant and Gabriel Synnaeve and Yossi Adi and Alexandre Défossez},
year={2023},
eprint={2306.05284},
archivePrefix={arXiv},
primaryClass={cs.SD}
}
许可证: 代码采用MIT协议,模型权重采用CC-BY-NC 4.0协议
反馈渠道: 可通过项目GitHub仓库提交问题或意见
使用范围
主要用途:
目标用户: 音频/机器学习/人工智能领域研究者及爱好者
非适用场景:
- 未经风险评估的下游应用
- 生成令人不适或强化刻板印象的内容
评估指标
客观指标:
- 基于VGGish特征的Frechet音频距离
- 基于PaSST的KL散度
- CLAP音频-文本嵌入相似度
人工评估维度:
- 音乐样本整体质量
- 文本相关性
- 旋律跟随度(旋律引导生成)
训练数据
使用授权数据源:
- Meta音乐计划音效库
- Shutterstock音乐库
- Pond5音乐库
评估结果
模型 |
Frechet音频距离 |
KLD |
文本一致性 |
色度余弦相似度 |
musicgen-small |
4.88 |
1.42 |
0.27 |
- |
musicgen-medium |
5.14 |
1.38 |
0.28 |
- |
musicgen-large |
5.48 |
1.37 |
0.28 |
- |
musicgen-melody |
4.93 |
1.41 |
0.27 |
0.44 |
局限性
数据:
- 无法生成真实人声
- 仅支持英语描述
- 音乐风格覆盖不均衡
偏见:
风险: 可能产生有偏见或不适当内容。建议仅用于研究目的,下游应用需额外风险评估。