Musicgen-songstarter-v0.2开源文本转音频模型 - 免费为音乐制作人生成歌曲创意

首页

Musicgen Songstarter V0.2

由 nateraw 开发

基于musicgen-stereo-melody-large微调的文本转音频模型，专为音乐制作人设计，可生成32kHz立体声音频的歌曲创意

音频生成英语#音乐创意生成 #立体声音频 #旋律循环

下载量 22.11k

发布时间 : 4/12/2024

模型简介

该模型通过微调Facebook的musicgen-stereo-melody-large模型，使用Splice样本库中的旋律循环片段训练而成，旨在为音乐制作人生成实用的歌曲创意。

模型特点

高质量音乐生成

可生成32kHz高保真立体声音频，适合专业音乐制作

歌曲创意启发

专门针对音乐制作人设计，可生成实用的歌曲片段和灵感

支持旋律引导

可以根据输入的旋律音频生成匹配的音乐内容

改进的训练数据

相比v0.1版本，训练数据量增加了3倍，模型规模扩大了一倍

模型能力

文本描述生成音乐

无条件音乐生成

基于旋律的音乐生成

多风格音乐创作

使用案例

音乐制作

歌曲创意生成

为音乐制作人提供创作灵感和起始素材

生成可立即用于音乐制作的音频片段

旋律扩展

基于简单的旋律输入生成完整的音乐编排

将简单的旋律发展为丰富的音乐作品

内容创作

背景音乐生成

为视频、播客等内容创作定制背景音乐

快速生成符合内容氛围的背景音乐

🚀 音乐生成歌曲创意生成器 v0.2

musicgen-songstarter-v0.2 是一个基于微调的音乐生成模型，专为音乐制作人提供歌曲创意，可生成 32kHz 的立体声音频。

🚀 快速开始

musicgen-songstarter-v0.2 是在我的 Splice 样本库中的旋律循环数据集上对 musicgen-stereo-melody-large 进行微调得到的。它旨在用于生成对音乐制作人有用的歌曲创意，生成 32kHz 的立体声音频。

👀 更新：我写了一篇博客文章，详细介绍了我训练这个模型的方式和原因，包括训练细节、数据集、Weights and Biases 日志等。

与 musicgen-songstarter-v0.1 相比，这个新版本：

在我在 Splice 上精心购买的独特样本上进行了 3 倍多的训练。
模型大小从 medium 提升到 large，是原来的两倍。

如果您觉得这个模型有趣，请考虑：

在 GitHub 上关注我。
在 Twitter 上关注我。

✨ 主要特性

基于微调的音乐生成模型，可生成歌曲创意。
生成 32kHz 的立体声音频。
支持无条件生成和基于描述的生成。
支持使用给定音频的旋律进行生成。

📦 安装指南

安装 audiocraft：

pip install -U git+https://github.com/facebookresearch/audiocraft#egg=audiocraft

💻 使用示例

基础用法

import torchaudio
from audiocraft.models import MusicGen
from audiocraft.data.audio import audio_write

model = MusicGen.get_pretrained('nateraw/musicgen-songstarter-v0.2')
model.set_generation_params(duration=8)  # 生成 8 秒的音频。
wav = model.generate_unconditional(4)    # 生成 4 个无条件音频样本
descriptions = ['acoustic, guitar, melody, trap, d minor, 90 bpm'] * 3
wav = model.generate(descriptions)  # 生成 3 个样本。

melody, sr = torchaudio.load('./assets/bach.mp3')
# 使用给定音频的旋律和提供的描述进行生成。
wav = model.generate_with_chroma(descriptions, melody[None].expand(3, -1, -1), sr)

for idx, one_wav in enumerate(wav):
    # 将以 -14 db LUFS 进行响度归一化，并保存为 {idx}.wav。
    audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness", loudness_compressor=True)

📚 详细文档

提示格式

遵循以下提示格式：

{标签 1}, {标签 2}, ..., {标签 n}, {调式}, {bpm} bpm

例如：

hip hop, soul, piano, chords, jazz, neo jazz, G# minor, 140 bpm

有关一些示例标签，请参阅 musicgen-songstarter-v0.1 的 README 中的提示格式部分。那里的标签适用于较小的 v1 数据集，但应该能让您了解模型所学习的内容。

示例音频

音频提示	文本提示	输出
	trap, synthesizer, songstarters, dark, G# minor, 140 bpm
	acoustic, guitar, melody, trap, D minor, 90 bpm

🔧 技术细节

训练详情

代码：
- 代码仓库位于这里。这是 facebookresearch/audiocraft 的一个未公开分支，我使用 PyTorch Lightning 重写了训练循环，这对我来说效果更好。
数据：
- 大约 1700 - 1800 个样本，我亲自聆听并通过个人 Splice 账户购买。大约 7 - 8 小时的音频。
- 由于许可条款，我无法分享这些数据。
硬件：
- 使用 Lambda Labs 的 8xA100 40GB 实例。
训练过程：
- 训练了 10000 步，大约需要 6 小时。
- 在训练时将片段持续时间缩短至 15 秒。
超参数/日志：
- 请参阅 wandb 运行记录，其中包括训练指标、日志、训练时的硬件指标、超参数以及我运行训练脚本时使用的准确命令。