M

Musicgen Medium

由 facebook 开发
MusicGen是一款基于文本描述或音频提示生成高质量音乐样本的文本转音乐模型,采用15亿参数的自回归Transformer架构。
下载量 1.5M
发布时间 : 6/8/2023
模型介绍
内容详情
替代品

模型简介

单阶段自回归Transformer模型,通过文本描述直接生成32kHz采样率的音乐音频,支持并行预测和可控音乐生成。

模型特点

并行码本预测
通过码本间微小延迟实现并行预测,每秒音频仅需50个自回归步骤
无需语义表征
相比MusicLM等方案,直接生成音频码本而无需中间语义表示
多参数版本
提供3亿/15亿/33亿参数版本及旋律引导变体

模型能力

根据文本描述生成音乐
支持风格混合(如'80年代嘻哈+放克浩室')
生成32kHz高质量音频
支持旋律引导生成(需使用旋律版模型)

使用案例

音乐创作
背景音乐生成
为播客/视频生成定制化开场音乐
示例显示可生成具有抓耳节奏的音频
风格实验
混合不同年代和风格的音乐元素
成功生成'80年代嘻哈+放克浩室'等混合风格
内容制作
低保真工作音乐
生成融合弛放电子元素的舒缓曲目
可生成适合专注工作的背景音乐