perceiver-ar-sam-giant-midi开源符号音频模型 - 免费实现高质量符号音频生成

首页

Perceiver Ar Sam Giant Midi

由 krasserm 开发

基于Perceiver AR架构的符号音频模型，在GiantMIDI-Piano数据集上预训练，用于符号音频生成

音频生成

Transformers

开源协议:Apache-2.0 #钢琴音乐生成 #长序列建模 #符号音频处理

下载量 153

发布时间 : 5/3/2023

模型简介

该模型是一个基于Perceiver AR架构的符号音频模型，主要用于基于用户定义初始潜在标记数量的音频生成。

模型特点

长上下文处理能力

通过混合自注意力与交叉注意力机制，可处理比纯自注意力解码器更长的上下文（最长6144个标记）。

旋转位置编码

采用旋转位置编码进行相对位置编码，提升模型对序列位置关系的理解能力。

符号音频建模

专门针对MIDI格式的符号音频数据进行建模和生成。

模型能力

符号音频生成

音乐续写

MIDI文件生成

使用案例

音乐创作

音乐片段续写

基于用户提供的音乐片段提示，自动生成后续音乐内容

可生成风格连贯的音乐续写片段

音乐风格模仿

通过学习特定风格的MIDI数据，生成类似风格的音乐

可模仿训练数据中的音乐风格特征

教育娱乐

音乐创作辅助

为音乐学习者提供创作灵感和素材

可生成简单旋律供学习和改编

🚀 Perceiver AR 符号音频模型

这是一个基于 Perceiver AR 的符号音频模型（1.34 亿参数），在 GiantMIDI - Piano 数据集上进行了 27 个轮次（1.57 亿个标记）的预训练。它使用旋转嵌入进行相对位置编码。该模型是 perceiver - io 库的一个训练示例。

🚀 快速开始

若要使用此模型，你首先需要安装带有 audio 扩展的 perceiver-io 库：

pip install perceiver-io[audio]

然后可以使用 PyTorch 来使用该模型，具体使用方法见下方“💻 使用示例”部分。

✨ 主要特性

基于 Perceiver AR 架构，是对仅解码器的 Transformer（如 GPT - 2）的简单扩展。
在第一个注意力层中对输入序列的较长前缀进行交叉注意力操作，能够处理比仅基于自注意力的解码器 Transformer 更大的上下文。
使用旋转嵌入进行相对位置编码。

📚 详细文档

模型描述

Perceiver AR 是对像 GPT - 2 这样的纯仅解码器 Transformer 的简单扩展。两者的核心构建块都是 解码器层，它由一个自注意力层和一个逐位置的多层感知机（MLP）组成。自注意力使用因果注意力掩码。

Perceiver AR 在其第一个注意力层中还会对输入序列的较长前缀进行交叉注意力操作。这一层是一个混合的自注意力和交叉注意力层。自注意力作用于输入序列的最后 n 个位置，并使用因果注意力掩码；交叉注意力从最后 n 个位置指向前 m 个位置。输入序列的长度为 m + n。这使得 Perceiver AR 能够处理比仅基于自注意力的解码器 Transformer 大得多的上下文。

图 1. Perceiver AR 中 m = 8 个前缀标记和 n = 3 个潜在标记的注意力机制。

混合注意力层的输出是与输入序列的最后 n 个标记相对应的 n 个潜在数组。这些数组会被一个由 L - 1 个解码器层组成的栈进一步处理，其中注意力层的总数为 L。最后一层（图 1 中未显示）会为每个潜在位置预测目标标记。最后一层的权重与输入嵌入层共享。除了对前缀序列的初始交叉注意力之外，Perceiver AR 在架构上与仅解码器的 Transformer 相同。

模型训练

该模型在 GiantMIDI - Piano 数据集上进行了训练，任务为符号音频建模，训练了 27 个轮次（1.57 亿个标记）。该数据集由 MIDI 文件组成，使用 Perceiver AR 论文中的方法进行标记化，该方法在 Huang 等人 (2019) 的 A.2 节中有详细描述。

所有超参数总结在训练脚本中。上下文长度设置为 6144 个标记，其中有 2048 个潜在位置，最大前缀长度为 4096。每个示例的实际前缀长度在 0 到 4096 之间随机选择。训练使用 PyTorch Lightning 进行，训练得到的检查点使用特定库的转换工具转换为这个 🤗 模型。

预期用途和限制

该模型可用于音频生成，用户可以自定义初始潜在标记的数量。它主要用于演示如何使用 perceiver - io 库训练 Perceiver AR 模型。为了提高生成音频样本的质量，需要使用比 GiantMIDI - Piano 大得多的数据集进行训练。

💻 使用示例

基础用法

使用此模型前，需先安装 perceiver-io 库：

pip install perceiver-io[audio]

然后可以直接使用模型生成 MIDI 文件：

import torch

from perceiver.model.audio.symbolic import PerceiverSymbolicAudioModel
from perceiver.data.audio.midi_processor import decode_midi, encode_midi
from pretty_midi import PrettyMIDI

repo_id = "krasserm/perceiver-ar-sam-giant-midi"

model = PerceiverSymbolicAudioModel.from_pretrained(repo_id)

prompt_midi = PrettyMIDI("prompt.mid")
prompt = torch.tensor(encode_midi(prompt_midi)).unsqueeze(0)

output = model.generate(prompt, max_new_tokens=64, num_latents=1, do_sample=True, top_p=0.95, temperature=1.0)

output_midi = decode_midi(output[0].cpu().numpy())
type(output_midi)

pretty_midi.pretty_midi.PrettyMIDI

高级用法

使用 symbolic - audio - generation 管道生成 MIDI 输出：

from transformers import pipeline
from pretty_midi import PrettyMIDI
from perceiver.model.audio import symbolic  # auto-class registration

repo_id = "krasserm/perceiver-ar-sam-giant-midi"

prompt = PrettyMIDI("prompt.mid")
audio_generator = pipeline("symbolic-audio-generation", model=repo_id)

output = audio_generator(prompt, max_new_tokens=64, num_latents=1, do_sample=True, top_p=0.95, temperature=1.0)
type(output["generated_audio_midi"])

pretty_midi.pretty_midi.PrettyMIDI

或者使用 fluidsynth 渲染 MIDI 符号以生成 WAV 输出（注意：为使以下示例正常工作，必须安装 fluidsynth）：

from transformers import pipeline
from pretty_midi import PrettyMIDI
from perceiver.model.audio import symbolic  # auto-class registration

repo_id = "krasserm/perceiver-ar-sam-giant-midi"

prompt = PrettyMIDI("prompt.mid")
audio_generator = pipeline("symbolic-audio-generation", model=repo_id)

output = audio_generator(prompt, max_new_tokens=64, num_latents=1, do_sample=True, top_p=0.95, temperature=1.0, render=True)

with open("generated_audio.wav", "wb") as f:
    f.write(output["generated_audio_wav"])

🎵 音频示例

以下（精心挑选的）音频示例是使用 GiantMIDI - Piano 数据集验证子集的各种提示生成的。输入提示不包含在音频输出中。

Top - K	Top - p	温度	前缀长度	潜在标记数
-	0.95	0.95	4096	1
-	0.95	1.0	4096	64
-	0.95	1.0	1024	1
15	-	1.0	4096	16
-	0.95	1.0	4096	1

🔄 检查点转换

krasserm/perceiver - ar - sam - giant - midi 模型是从训练检查点创建的，代码如下：

from perceiver.model.audio.symbolic import convert_checkpoint

convert_checkpoint(
    save_dir="krasserm/perceiver-ar-sam-giant-midi",
    ckpt_url="https://martin-krasser.com/perceiver/logs-0.8.0/sam/version_1/checkpoints/epoch=027-val_loss=1.944.ckpt",
    push_to_hub=True,
)

📄 许可证

本项目采用 Apache - 2.0 许可证。

📚 引用

@inproceedings{hawthorne2022general,
  title={General-purpose, long-context autoregressive modeling with perceiver ar},
  author={Hawthorne, Curtis and Jaegle, Andrew and Cangea, C{\u{a}}t{\u{a}}lina and Borgeaud, Sebastian and Nash, Charlie and Malinowski, Mateusz and Dieleman, Sander and Vinyals, Oriol and Botvinick, Matthew and Simon, Ian and others},
  booktitle={International Conference on Machine Learning},
  pages={8535--8558},
  year={2022},
  organization={PMLR}
}