M

Magnet Small 30secs

由 facebook 开发
MAGNeT是一个文本到音乐和文本到声音的模型,能够根据文本描述生成高质量的音频样本。
下载量 215
发布时间 : 1/10/2024
模型介绍
内容详情
替代品

模型简介

MAGNeT是一个基于32kHz EnCodec分词器的掩码生成非自回归Transformer,使用4个以50Hz采样的码本。它不需要语义标记条件或模型级联,使用单一的非自回归Transformer生成所有4个码本。

模型特点

单一非自回归Transformer
使用单一的非自回归Transformer生成所有4个码本,无需模型级联。
高质量音频生成
能够根据文本描述生成高质量的音频样本。
多码本生成
使用4个以50Hz采样的码本进行音频生成。

模型能力

文本到音乐生成
文本到声音生成
高质量音频合成

使用案例

音乐创作
生成特定风格的音乐
根据文本描述生成特定风格的音乐,如80年代嘻哈风格的放克浩室音乐。
生成30秒的高质量音乐样本。
播客背景音乐
生成适合播客开场的吸引人节奏。
生成30秒的高质量背景音乐。
音效生成
生成特定音效
根据文本描述生成特定音效,如自然环境声音或机械声音。
生成30秒的高质量音效样本。