许可证: cc-by-nc-4.0
标签:
MusicGen - 立体声 - 旋律版 - 1.5B
我们进一步发布了一组支持立体声生成的模型。这些模型是在单声道模型基础上,经过20万次迭代微调而成。训练数据与基础模型完全相同,功能与限制也保持一致。立体声模型的工作原理是从EnCodec模型中获取两路令牌流,并通过延迟模式进行交错处理。
MusicGen是一款文本生成音乐模型,能够根据文本描述或音频提示生成高质量音乐样本。它是一个基于32kHz EnCodec分词器的单阶段自回归Transformer模型,使用4个50Hz采样的码本。与MusicLM等现有方法不同,MusicGen无需自监督语义表示,可一次性生成全部4个码本。通过在码本间引入微小延迟,我们实现了并行预测,每秒音频仅需50个自回归步骤。
本模型由Jade Copet, Felix Kreuk, Itai Gat, Tal Remez, David Kant, Gabriel Synnaeve, Yossi Adi, Alexandre Défossez在论文《简易可控的音乐生成》中发布。
我们提供了简易API和10个预训练模型,包括:
facebook/musicgen-small
:3亿参数,纯文本生成
facebook/musicgen-medium
:15亿参数,纯文本生成
facebook/musicgen-melody
:15亿参数,支持文本/旋律混合生成
facebook/musicgen-large
:33亿参数,纯文本生成
facebook/musicgen-melody-large
:33亿参数,支持文本/旋律混合生成
facebook/musicgen-stereo-*
系列:上述所有模型的立体声微调版本
使用示例
立即体验MusicGen:
本地运行指南:
- 安装audiocraft库
pip install git+https://github.com/facebookresearch/audiocraft.git
- 确保安装ffmpeg
apt get install ffmpeg
- 运行Python代码:
import torchaudio
from audiocraft.models import MusicGen
from audiocraft.data.audio import audio_write
model = MusicGen.get_pretrained('melody')
model.set_generation_params(duration=8)
descriptions = ['欢快的摇滚', '激昂的电子舞曲', '忧伤的爵士乐']
melody, sr = torchaudio.load('./assets/bach.mp3')
wav = model.generate_with_chroma(descriptions, melody[None].expand(3, -1, -1), sr)
for idx, one_wav in enumerate(wav):
audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")
模型详情
开发机构: Meta AI的FAIR团队
训练时间: 2023年4月至5月
版本: v1
架构: 包含EnCodec音频分词器和基于Transformer的自回归语言模型,提供3亿/15亿/33亿参数版本,含纯文本生成和旋律引导生成两种变体
论文: 《简易可控的音乐生成》
引用格式:
@misc{copet2023simple,
title={Simple and Controllable Music Generation},
author={Jade Copet等},
year={2023},
eprint={2306.05284},
archivePrefix={arXiv},
primaryClass={cs.SD}
}
许可: 代码采用MIT协议,模型权重采用CC-BY-NC 4.0协议
问题反馈: 通过GitHub仓库提交
使用范围
主要用途:
非适用场景:
- 未经风险评估的下游应用
- 生成令人不适或带有偏见的内容
评估指标
客观指标:
- 基于VGGish的Frechet音频距离
- 基于PaSST的KL散度
- CLAP音频-文本嵌入相似度
人工评估维度:
训练数据
使用Meta Music Initiative、Shutterstock和Pond5的授权音乐数据,总计2万小时,经HT-Demucs工具分离器乐部分。
性能表现
模型 |
FAD ↓ |
KLD ↓ |
文本一致性 ↑ |
色度相似度 ↑ |
musicgen-small |
4.88 |
1.42 |
0.27 |
- |
musicgen-melody |
4.93 |
1.41 |
0.27 |
0.44 |
局限性
- 无法生成真实人声
- 仅支持英语提示词
- 对不同音乐风格表现不均
- 可能出现歌曲提前结束现象
- 需提示词调优才能获得理想结果
风险提示: 训练数据存在的文化偏差可能反映在生成结果中,建议用户充分了解模型局限后再使用。本模型专为可控音乐生成研究设计,不建议直接用于生产环境。