许可证: cc-by-nc-sa-4.0
指标:
- roc_auc
库名称: transformers
流水线标签: 音频分类
discogs-maest-20s-pw-129e模型卡
模型详情
MAEST是基于PASST的Transformer模型系列,专注于音乐分析应用。
MAEST模型可通过Essentia库进行推理,也可在官方仓库进行推理和训练。
您可以在replicate上体验MAEST的交互式演示。
注:本模型遵循CC BY-NC-SA 4.0许可用于非商业应用,如需商业许可请联系我们。
注:MAEST模型依赖自定义代码。使用🤗Transformers的audio-classification
流水线时需设置trust_remote_code=True
。
模型描述
- 开发者: Pablo Alonso
- 共享者: Pablo Alonso
- 模型类型: Transformer
- 许可证: cc-by-nc-sa-4.0
- 微调自模型: PaSST
模型来源
用途
MAEST是通过音乐风格分类任务预训练的音乐音频表征模型。根据原论文报告,该模型在多项下游音乐分析任务中表现良好。
直接使用
MAEST模型可对Discogs公开元数据衍生的400种音乐风格分类体系进行预测。
下游使用
MAEST模型在音乐流派识别、音乐情感识别和乐器检测等下游应用中表现优异。原论文指出,从模型中间层提取的表征能获得最佳性能。
超范围使用
该模型未在音乐理解应用之外的场景评估,因此不推荐用于通用音频分类任务(如AudioSet)。
偏差、风险与限制
训练数据Discogs20源自MTG内部数据集,虽然覆盖了400种音乐风格,但仍存在西方(尤其是电子)音乐过度代表的问题。
快速开始
使用transformers
库的audio_classification
流水线示例:
import numpy as np
from transformers import pipeline
audio = np.random.randn(30 * 16000)
pipe = pipeline("audio-classification", model="mtg-upf/discogs-maest-20s-pw-129e")
pipe(audio)
训练详情
训练数据
使用包含330万条音乐曲目的Discogs20数据集,数据匹配Discogs元数据。
训练流程
详见论文和官方实现。预处理采用Essentia库提取的梅尔频谱图。
评估与结果
模型通过下游MLP探针在多项基准任务中评估,具体见原论文。
环境影响
- 硬件类型: 4块Nvidia RTX 2080 Ti
- 使用时长: 约32小时
- 碳排放: 约3.46千克CO2当量
碳排放估算采用Lacoste等(2019)提出的机器学习影响计算器。
技术规格
模型架构
音频频谱Transformer(AST)
计算基础设施
硬件
4块Nvidia RTX 2080 Ti
软件
PyTorch
引用
BibTeX:
@inproceedings{alonso2023music,
title={Efficient supervised training of audio transformers for music representation learning},
author={Alonso-Jim{\'e}nez, Pablo and Serra, Xavier and Bogdanov, Dmitry},
booktitle={Proceedings of the 24th International Society for Music Information Retrieval Conference (ISMIR 2023)},
year={2022},
organization={International Society for Music Information Retrieval (ISMIR)}
}
APA:
Alonso-Jiménez, P., Serra, X., & Bogdanov, D. (2023). Efficient Supervised Training of Audio Transformers for Music Representation Learning. In Proceedings of the 24th International Society for Music Information Retrieval Conference (ISMIR 2023)
模型卡作者
Pablo Alonso
联系方式