推理: true
标签:
- 音乐生成
- 音频工艺
许可证: cc-by-nc-4.0
任务标签: 文本转音频
库名称: transformers
小部件:
- 文本: "80年代嘻哈风格的放克浩室音乐"
示例标题: 提示词1
- 文本: "融合低保真、弛放电子和慢节奏元素的舒缓歌曲"
示例标题: 提示词2
- 文本: "播客开场用的抓耳节奏"
示例标题: 提示词3
MusicGen立体声中版1.5B
我们正式发布支持立体声生成的模型系列。这些模型是在单声道模型基础上,经过20万次迭代微调而成。训练数据与基础模型完全一致,其能力与限制也保持一致。立体声模型通过从EnCodec模型获取双声道令牌流,并采用延迟模式进行交错处理来实现立体声效果。
立体声技术通过双声道音频系统(如音箱或耳机)营造具有空间层次感的音场体验。
MusicGen是一款基于文本描述或音频提示生成高质量音乐样本的文本转音乐模型。该单阶段自回归Transformer模型基于32kHz采样的EnCodec分词器(含4个50Hz采样的码本)训练而成。与MusicLM等现有方案不同,MusicGen无需自监督语义表征,可一次性生成全部4个码本。通过码本间微小延迟设计,模型能以每秒50个自回归步骤的速率并行预测码本。
本模型由Meta AI的Jade Copet等研究者在论文《简易可控的音乐生成》中发表(arXiv:2306.05284)。
我们提供简洁API和10个预训练模型:
- 小型文本转音乐模型(3亿参数)
- 中版文本转音乐模型(15亿参数)
- 中版旋律引导模型(15亿参数)
- 大型文本转音乐模型(33亿参数)
- 大型旋律引导模型(33亿参数)
- 全系列立体声优化版本(包含上述所有变体)
快速体验
您可通过以下方式体验MusicGen:
- Audiocraft官方Colab笔记本
- Hugging Face社区Colab
- Hugging Face演示空间
🤗 Transformers使用指南
- 安装最新版Transformers库与scipy:
pip install --upgrade git+https://github.com/huggingface/transformers.git scipy
- 通过文本转音频管道运行推理:
synthesiser = pipeline("text-to-audio", "facebook/musicgen-stereo-medium")
music = synthesiser("舒缓旋律的低保真音乐", forward_params={"max_new_tokens": 256})
- 使用建模代码实现精细控制:
processor = AutoProcessor.from_pretrained("facebook/musicgen-stereo-medium")
model = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-stereo-medium")
audio_values = model.generate(**inputs, max_new_tokens=256)
模型详情
开发机构: Meta AI FAIR团队
训练周期: 2023年4月至5月
架构: 包含EnCodec音频分词器和基于Transformer的自回归语言模型
变体规格: 3亿/15亿/33亿参数,含纯文本生成和旋律引导双版本
训练数据: 基于Meta音乐计划、Shutterstock和Pond5的授权数据集(总计2万小时),经HT-Demucs音源分离处理保留器乐部分。
评估表现
模型 |
FAD分数 |
KLD |
文本一致性 |
音色相似度 |
小型 |
4.88 |
1.42 |
0.27 |
- |
中版 |
5.14 |
1.38 |
0.28 |
- |
大型 |
5.48 |
1.37 |
0.28 |
- |
旋律版 |
4.93 |
1.41 |
0.27 |
0.44 |
限制与注意事项
- 当前版本无法生成逼真人声
- 基于英语描述训练,其他语言效果可能受限
- 对不同音乐风格/文化的表现存在差异
- 需注意训练数据可能存在的文化偏见
- 建议使用者通过提示词工程优化生成效果
本模型主要面向AI音乐生成研究,实际应用前需进行风险评估。根据CC-BY-NC 4.0许可,模型权重仅限非商业用途。