M

Magnet Medium 30secs

由 facebook 开发
MAGNeT是一个能够根据文本描述生成高质量音频样本的文本到音乐和文本到声音模型。
下载量 409
发布时间 : 1/10/2024
模型介绍
内容详情
替代品

模型简介

MAGNeT是一个基于32kHz EnCodec分词器的掩码生成非自回归Transformer,使用4个以50Hz采样的码本进行训练。它不需要语义标记条件或模型级联,使用单一的非自回归Transformer生成所有4个码本。

模型特点

非自回归生成
使用单一的非自回归Transformer同时生成所有码本,无需级联模型
高质量音频生成
能够根据文本描述生成高质量的音乐和声音样本
多样风格支持
支持生成多种音乐风格,如嘻哈、电子舞曲等

模型能力

文本到音乐生成
文本到声音生成
30秒音频生成

使用案例

音乐创作
风格化音乐生成
根据文本描述生成特定风格的音乐,如80年代嘻哈风格
生成符合描述的高质量音乐片段
背景音乐制作
为播客、视频等内容生成定制背景音乐
生成匹配内容氛围的音乐
研究应用
生成模型研究
用于探索和理解生成模型的局限性
推动音频生成领域的科学发展