许可证: cc-by-nc-sa-4.0
评估指标:
- roc_auc
库名称: transformers
流水线标签: 音频分类
discogs-maest-30s-pw-73e-ts 模型卡
模型详情
MAEST是基于PASST的Transformer模型系列,专注于音乐分析应用。
MAEST模型也可在Essentia库中进行推理,以及在官方仓库中进行推理和训练。
您可以在replicate上尝试MAEST的交互式演示。
注意:本模型在CC BY-NC-SA 4.0许可下可用于非商业应用,如需商业用途请申请专有许可。
联系我们获取更多信息。
注意:MAEST模型依赖自定义代码。在🤗Transformers的audio-classification
流水线中使用时,请设置trust_remote_code=True
。
模型描述
- 开发者: Pablo Alonso
- 共享者: Pablo Alonso
- 模型类型: Transformer
- 许可证: cc-by-nc-sa-4.0
- 微调自模型: PaSST
模型来源
用途
MAEST是一个在音乐风格分类任务上预训练的音乐音频表示模型。
根据原论文报告,其在多个下游音乐分析任务中表现良好。
直接使用
MAEST模型可以对Discogs公开元数据衍生的400种音乐风格分类体系进行预测。
下游使用
MAEST模型在音乐流派识别、音乐情感识别和乐器检测等下游应用中表现良好。
原论文报告称,从模型中间层提取的表示能获得最佳性能。
超出范围的使用
该模型未在音乐理解应用之外的上下文中评估,因此我们不清楚其在此范围外的表现。
由于该模型旨在用于audio-classification
流水线,需注意MAEST并非通用音频分类模型(如AST),因此在AudioSet等任务中表现可能不佳。
偏见、风险和限制
MAEST模型使用Discogs20(MTG内部数据集,源自Discogs公开元数据)训练。虽然我们尽力最大化400种音乐风格的多样性,但仍注意到西方(尤其是电子)音乐的过度代表。
如何开始使用该模型
MAEST模型可与transformers
库的audio_classification
流水线一起使用。例如:
import numpy as np
from transformers import pipeline
audio = np.random.randn(30 * 16000)
pipe = pipeline("audio-classification", model="mtg-upf/discogs-maest-30s-pw-73e-ts")
pipe(audio)
[{'score': 0.6158794164657593, 'label': '电子---噪音'},
{'score': 0.08825448155403137, 'label': '电子---实验'},
{'score': 0.08772594481706619, 'label': '电子---抽象'},
{'score': 0.03644488751888275, 'label': '摇滚---噪音'},
{'score': 0.03272806480526924, 'label': '电子---具体音乐'}]
训练详情
训练数据
我们的模型使用Discogs20训练,这是MTG内部数据集,包含330万条与Discogs元数据匹配的音乐曲目。
训练过程
大部分训练细节详见模型论文和官方实现。
预处理
MAEST模型依赖最初用Essentia库提取的梅尔频谱图,并在多篇先前论文中使用。
在Transformers中,使用audio_utils
部分复制了此梅尔频谱图特征,这对预测有微小(但不可忽视)的影响。
评估、指标和结果
MAEST模型在音乐风格分类任务上预训练,其内部表示通过下游MLP探针在多个基准音乐理解任务中评估。
详情请参阅原论文。
环境影响
- 硬件类型: 4 x Nvidia RTX 2080 Ti
- 使用时长: 约32小时
- 碳排放量: 约3.46千克CO2当量
碳排放量估算使用Lacoste等(2019)提出的机器学习影响计算器。
技术规格
模型架构和目标
音频频谱图Transformer (AST)
计算基础设施
本地基础设施
硬件
4 x Nvidia RTX 2080 Ti
软件
Pytorch
引用
BibTeX:
@inproceedings{alonso2023music,
title={高效监督训练音频Transformer用于音乐表示学习},
author={Alonso-Jim{\'e}nez, Pablo and Serra, Xavier and Bogdanov, Dmitry},
booktitle={第24届国际音乐信息检索会议论文集(ISMIR 2023)},
year={2022},
organization={国际音乐信息检索协会(ISMIR)}
}
APA:
Alonso-Jiménez, P., Serra, X., & Bogdanov, D. (2023). 高效监督训练音频Transformer用于音乐表示学习. 载于第24届国际音乐信息检索会议论文集(ISMIR 2023)
模型卡作者
Pablo Alonso
模型卡联系方式