许可协议: cc-by-nc-4.0
标签:
MusicGen - 旋律版 - 大型3.3B模型
MusicGen是一款文本生成音乐模型,能够根据文本描述或音频提示生成高质量音乐样本。该模型采用单阶段自回归Transformer架构,基于32kHz EnCodec分词器训练,包含4个以50Hz采样的码本。与MusicLM等现有方法不同,MusicGen无需自监督语义表征,可一次性生成全部4个码本。通过在码本间引入微小延迟,我们实现了并行预测,每秒音频仅需50个自回归步骤。
本模型由Jade Copet, Felix Kreuk, Itai Gat, Tal Remez, David Kant, Gabriel Synnaeve, Yossi Adi, Alexandre Défossez在论文《简易可控的音乐生成》中发布。
我们提供简易API和10个预训练模型:
facebook/musicgen-small
:3亿参数,纯文本生成音乐 - 🤗中心
facebook/musicgen-medium
:15亿参数,纯文本生成音乐 - 🤗中心
facebook/musicgen-melody
:15亿参数,支持文本/文本+旋律生成音乐 - 🤗中心
facebook/musicgen-large
:33亿参数,纯文本生成音乐 - 🤗中心
facebook/musicgen-melody-large
:33亿参数,支持文本/文本+旋律生成音乐 - 🤗中心
facebook/musicgen-stereo-*
:上述模型的立体声优化版 -
小型版、
中型版、
大型版、
旋律版、
大型旋律版
使用示例
立即体验MusicGen:
- 在Colab中运行
- 在HuggingFace空间体验
- 本地运行指南:
- 安装audiocraft库:
pip install git+https://github.com/facebookresearch/audiocraft.git
- 确保安装ffmpeg:
apt get install ffmpeg
- 执行Python代码:
import torchaudio
from audiocraft.models import MusicGen
from audiocraft.data.audio import audio_write
model = MusicGen.get_pretrained('melody')
model.set_generation_params(duration=8)
descriptions = ['欢快摇滚', '活力电子', '忧伤爵士']
melody, sr = torchaudio.load('./assets/bach.mp3')
wav = model.generate_with_chroma(descriptions, melody[None].expand(3, -1, -1), sr)
for idx, one_wav in enumerate(wav):
audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")
模型详情
开发机构: Meta AI的FAIR团队
训练时间: 2023年4月至5月
版本: v1
类型: 包含EnCodec音频分词器和基于Transformer的自回归语言模型,提供3亿/15亿/33亿参数版本,含纯文本生成和旋律引导生成两种变体。
论文: 《简易可控的音乐生成》
引用格式:
@misc{copet2023simple,
title={Simple and Controllable Music Generation},
author={Jade Copet and Felix Kreuk and Itai Gat and Tal Remez and David Kant and Gabriel Synnaeve and Yossi Adi and Alexandre Défossez},
year={2023},
eprint={2306.05284},
archivePrefix={arXiv},
primaryClass={cs.SD}
}
许可: 代码采用MIT协议,模型权重采用CC-BY-NC 4.0协议。
问题反馈: 通过GitHub仓库提交。
使用范围
主要用途:
适用人群: 音频/机器学习/AI领域研究者及技术爱好者
非适用场景:
- 未经风险评估的下游应用
- 生成令人不适或强化刻板印象的内容
性能指标
评估基准:
- 基于VGGish的Frechet音频距离
- 基于PaSST的KL散度
- 基于CLAP模型的音频-文本嵌入相似度
评估数据: MusicCaps基准集及训练集未见艺术家数据
训练数据: 授权数据来源包括Meta音乐计划音效库、Shutterstock音乐库及Pond5音乐库
评估结果
模型 |
FAD ↓ |
KLD ↓ |
文本一致性 ↑ |
音色相似度 ↑ |
musicgen-small |
4.88 |
1.42 |
0.27 |
- |
musicgen-medium |
5.14 |
1.38 |
0.28 |
- |
musicgen-large |
5.48 |
1.37 |
0.28 |
- |
musicgen-melody |
4.93 |
1.41 |
0.27 |
0.44 |
局限性
数据:
- 训练数据未包含真实人声
- 仅支持英文描述
- 音乐风格/文化覆盖不均衡
风险:
- 可能生成有偏见或不适当内容
- 需提示工程优化生成效果
改进方向: