M

Musicgen Stereo Large

由 facebook 开发
MusicGen是一款由Meta AI开发的文本生成音乐模型,支持立体声生成,能够根据文本描述或音频提示生成高质量音乐样本。
下载量 382
发布时间 : 10/23/2023

模型简介

MusicGen采用单阶段自回归Transformer架构,基于32kHz采样的EnCodec分词器训练而成,支持立体声效果生成,无需自监督语义表征即可一次性生成全部码本。

模型特点

立体声支持
通过两路token流和延迟模式交错处理实现立体声效果,增强空间感和方向性。
高效生成
采用并行预测技术,每秒音频仅需50次自回归步骤,显著提升生成效率。
旋律引导
支持通过文本描述或现有旋律提示生成音乐,增强创作可控性。
多规模模型
提供300M/1.5B/3.3B三种参数规模,满足不同计算资源需求。

模型能力

文本生成音乐
旋律引导生成
立体声生成
高质量音乐样本生成

使用案例

音乐创作
背景音乐生成
根据场景描述自动生成匹配的背景音乐
生成32kHz采样率的立体声音频
旋律扩展
基于现有旋律片段生成完整编曲
保持原始旋律特征的多样化变体
学术研究
生成模型研究
探索音频生成模型的局限性和改进方向
提供可量化的客观评估指标
AIbase
智启未来,您的人工智能解决方案智库
简体中文