推理: false
标签:
许可证: cc-by-nc-4.0
任务标签: 文本转音频
Audio-MAGNeT - 中号 - 15亿参数
MAGNeT 是一款文本生成音乐与音效的模型,能够根据文本描述生成高质量音频样本。该模型采用掩码生成式非自回归Transformer架构,基于32kHz EnCodec分词器训练,使用4个50Hz采样的码本。与先前技术不同,MAGNeT既不需要语义标记条件输入,也不依赖级联模型,仅通过单一非自回归Transformer即可生成全部4个码本。
MAGNeT由Meta AI的FAIR团队在论文《使用单一非自回归Transformer的掩码音频生成》中发布,作者包括Alon Ziv, Itai Gat, Gael Le Lan, Tal Remez, Felix Kreuk, Alexandre Défossez, Jade Copet, Gabriel Synnaeve, Yossi Adi。
发布六个模型版本:
🤗 Transformers 使用方式
即将上线...
Audiocraft 使用方式
可通过原版Audiocraft库本地运行MAGNeT:
- 首先安装
audiocraft
库
pip install git+https://github.com/facebookresearch/audiocraft.git
- 确保已安装
ffmpeg
:
apt-get install ffmpeg
- 执行以下Python代码:
from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write
model = MAGNeT.get_pretrained("facebook/audio-magnet-medium")
descriptions = ["欢快的摇滚", "充满能量的电子舞曲"]
wav = model.generate(descriptions)
for idx, one_wav in enumerate(wav):
audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")
模型详情
开发机构: Meta AI的FAIR团队
训练时间: 2023年11月至2024年1月
版本号: 此为V1版本
架构类型: MAGNeT包含用于音频标记化的EnCodec模型,以及基于Transformer架构的非自回归语言模型。模型提供不同规模(3亿/15亿参数)及两种变体:文本生成音乐模型与文本生成音效模型。
论文资源: 详见论文《使用单一非自回归Transformer的掩码音频生成》
引用格式:
@misc{ziv2024masked,
title={Masked Audio Generation using a Single Non-Autoregressive Transformer},
author={Alon Ziv and Itai Gat and Gael Le Lan and Tal Remez and Felix Kreuk and Alexandre Défossez and Jade Copet and Gabriel Synnaeve and Yossi Adi},
year={2024},
eprint={2401.04577},
archivePrefix={arXiv},
primaryClass={cs.SD}
}
许可证: 代码采用MIT协议,模型权重采用CC-BY-NC 4.0协议
问题反馈: 可通过项目GitHub仓库提交问题
使用范围
主要用途:
- 人工智能音乐生成研究
- 机器学习爱好者探索生成模型能力
目标用户: 音频/机器学习/人工智能领域研究者及技术爱好者
非适用场景:
- 未经风险评估的下游应用
- 生成令人不适或强化刻板印象的内容
评估指标
客观指标:
- 基于VGGish特征的Frechet音频距离
- 基于PaSST的KL散度
- CLAP音频-文本嵌入相似度
人工评估维度:
训练数据
使用授权数据源:Meta音乐计划音效库、Shutterstock音乐库、Pond5音乐库
音效生成模型
训练数据: AudioSet子集、BBC音效库、AudioCaps等10个专业音效数据集
评估结果(AudioCaps基准):
模型 |
Frechet音频距离 |
KL散度 |
facebook/audio-magnet-small |
3.21 |
1.42 |
facebook/audio-magnet-medium |
2.32 |
1.64 |