riffusion-model-v1开源音乐生成模型 - 根据文本实时创作独特音频片段

首页

Riffusion Model V1

由 riffusion 开发

Riffusion是一款基于稳定扩散技术的实时音乐生成应用，可根据文本输入生成频谱图并转换为音频片段。

文本生成音频开源协议:Openrail #文本生成音频频谱 #实时音乐生成 #稳定扩散微调

下载量 2,354

发布时间 : 12/13/2022

模型简介

Riffusion是一种潜在文本-图像扩散模型，通过微调Stable-Diffusion-v1-5检查点实现音乐频谱图生成，可转换为音频片段。

模型特点

实时音乐生成

能够根据文本提示实时生成音乐频谱图并转换为音频片段

基于稳定扩散技术

采用经过微调的Stable-Diffusion-v1-5模型架构，具备强大的生成能力

开放许可

采用CreativeML OpenRAIL-M许可证，允许商用和研究用途

模型能力

文本到频谱图生成

频谱图到音频转换

实时音乐创作

创意音频生成

使用案例

艺术创作

音乐作品生成

根据文本描述自动生成原创音乐片段

生成可播放的音频文件

教育工具

音乐概念教学

通过可视化频谱图辅助音乐理论教学

直观展示音频与频谱的关系

研究开发

生成模型研究

探索跨模态（文本-音频）生成技术

🚀 Riffusion

Riffusion 是一款借助稳定扩散技术实现实时音乐生成的应用程序。它能根据文本输入生成频谱图，进而转化为音频片段。你可以通过此链接了解更多信息，并在这里进行体验。

代码仓库：https://github.com/riffusion/riffusion
网页应用：https://github.com/hmartiro/riffusion-app
模型检查点：https://huggingface.co/riffusion/riffusion-model-v1
Discord 社区：https://discord.gg/yu6SRwvX4v

本仓库包含以下模型文件：

一个符合 diffusers 格式的库
一个编译后的检查点文件
一个为提高推理速度而跟踪的 UNet
一个供 riffusion-app 使用的种子图像库

✨ 主要特性

Riffusion v1 模型

Riffusion 是一个潜在的文本到图像扩散模型，能够根据任何文本输入生成频谱图图像，这些频谱图可以转换为音频剪辑。该模型由 Seth Forsgren 和 Hayk Martiros 作为业余项目创建。你可以直接使用 Riffusion 模型，也可以尝试 Riffusion 网页应用。

Riffusion 模型是通过微调 Stable-Diffusion-v1-5 检查点创建的。你可以在 🤗 的 Stable Diffusion 博客中了解有关 Stable Diffusion 的更多信息。

模型详情

属性	详情
开发者	Seth Forsgren、Hayk Martiros
模型类型	基于扩散的文本到图像生成模型
语言	英语
许可证	CreativeML OpenRAIL M 许可证是一种 Open RAIL M 许可证，它改编自 BigScience 和 RAIL Initiative 在负责任的人工智能许可领域的联合工作。另见关于 BLOOM Open RAIL 许可证的文章，本许可证以此为基础。
模型描述	这是一个能够根据文本提示生成和修改图像的模型。它是一个潜在扩散模型，使用固定的预训练文本编码器 (CLIP ViT-L/14)，如 Imagen 论文中所建议的那样。

直接使用

该模型仅用于研究目的。可能的研究领域和任务包括：

艺术品、音频的生成以及在创意过程中的应用。
在教育或创意工具中的应用。
生成模型的研究。

数据集

原始的 Stable Diffusion v1.5 在 LAION-5B 数据集上使用 CLIP 文本编码器进行训练，这为深入理解语言（包括音乐概念）提供了一个绝佳的起点。LAION 团队还从许多通用、语音和音乐来源编译了一个出色的音频数据集，我们推荐查看 LAION-AI/audio-dataset。

微调

你可以查看 Hugging Face 的 diffusers 训练示例。微调需要一个短音频片段的频谱图图像数据集，以及描述它们的相关文本。请注意，即使某些单词从未出现在数据集中，CLIP 编码器也能够理解和关联它们。也可以使用 dreambooth 方法来获得自定义风格。

📄 许可证

本模型开放访问，所有人均可使用，采用 CreativeML OpenRAIL-M 许可证进一步明确权利和使用方式。CreativeML OpenRAIL 许可证规定：

你不得使用该模型故意生成或分享非法或有害的输出或内容。
Riffusion 对您生成的输出不主张任何权利，您可以自由使用它们，并对其使用负责，且使用不得违反许可证中的规定。
您可以重新分发权重，并将模型用于商业用途和/或作为服务使用。如果这样做，请务必包含与许可证中相同的使用限制，并向所有用户提供一份 CreativeML OpenRAIL-M 许可证副本（请完整仔细阅读许可证）。

请在此处仔细阅读完整许可证：https://huggingface.co/spaces/CompVis/stable-diffusion-license

📚 详细文档

引用

如果您基于此工作进行开发，请按以下方式引用：

@article{Forsgren_Martiros_2022,
  author = {Forsgren, Seth* and Martiros, Hayk*},
  title = {{Riffusion - Stable diffusion for real-time music generation}},
  url = {https://riffusion.com/about},
  year = {2022}
}