ast - finetuned - audioset开源音频分类模型 - 免费部署精准识别音乐流派

首页

Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan

由 wkCircle 开发

该模型是基于Audio Spectrogram Transformer (AST)架构的音频分类模型，在Audioset数据集上预训练后，又在GTZAN音乐流派分类数据集上进行了微调。

音频分类

Transformers

开源协议:Bsd-3-clause #音频分类 #高准确率 #音乐流派识别

下载量 8

发布时间 : 2/2/2025

模型简介

这是一个用于音频分类的Transformer模型，特别适用于音乐流派分类任务。模型在GTZAN数据集上微调后达到了91%的准确率。

模型特点

高准确率

在GTZAN音乐流派分类任务上达到91%的准确率

基于Transformer架构

采用Audio Spectrogram Transformer架构，专门处理音频频谱图

迁移学习

先在Audioset大规模数据集上预训练，再在GTZAN上微调

模型能力

音频分类

音乐流派识别

音频特征提取

使用案例

音乐分析

音乐流派分类

自动识别音乐片段的流派类别

在GTZAN数据集上达到91%准确率

音频内容分析

音频内容分类

对音频片段进行分类和标记

🚀 ast-finetuned-audioset-10-10-0.4593-finetuned-gtzan

本模型是 MIT/ast-finetuned-audioset-10-10-0.4593 在 GTZAN 数据集上的微调版本。它在评估集上取得了以下结果：

损失值：0.4517
准确率：0.91

📚 详细文档

模型描述

更多信息待补充。

预期用途与限制

更多信息待补充。

训练和评估数据

更多信息待补充。

🔧 技术细节

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率：5e-05
训练批次大小：2
评估批次大小：2
随机种子：42
梯度累积步数：4
总训练批次大小：8
优化器：使用 OptimizerNames.ADAMW_TORCH，β值为(0.9, 0.999)，ε值为 1e-08，无额外优化器参数
学习率调度器类型：线性
学习率调度器热身比例：0.1
训练轮数：15
混合精度训练：原生自动混合精度（Native AMP）

训练结果

训练损失	轮数	步数	验证损失	准确率
1.3017	1.0	113	0.6180	0.78
0.5478	2.0	226	0.8031	0.77
0.3357	3.0	339	0.6511	0.87
0.1565	4.0	452	0.6858	0.87
0.0628	5.0	565	0.5638	0.86
0.0466	6.0	678	0.4399	0.91
0.0108	7.0	791	0.5120	0.88
0.0094	8.0	904	0.4854	0.89
0.0069	9.0	1017	0.4865	0.91
0.0061	10.0	1130	0.4674	0.91
0.0052	11.0	1243	0.4565	0.91
0.0027	12.0	1356	0.4557	0.91
0.0042	13.0	1469	0.4534	0.91
0.0028	14.0	1582	0.4523	0.91
0.0026	14.8711	1680	0.4517	0.91

框架版本

Transformers 4.48.2
Pytorch 2.6.0+cu126
Datasets 3.2.0
Tokenizers 0.21.0

📄 许可证

本项目采用 BSD 3 条款许可证（bsd-3-clause）。

📋 模型信息表格

属性	详情
库名称	transformers
许可证	BSD 3 条款许可证（bsd-3-clause）
基础模型	MIT/ast-finetuned-audioset-10-10-0.4593
标签	generated_from_trainer
数据集	marsyas/gtzan
评估指标	准确率
模型名称	ast-finetuned-audioset-10-10-0.4593-finetuned-gtzan
任务	音频分类（Audio Classification）
数据集名称	GTZAN
数据集类型	marsyas/gtzan
数据集配置	all
数据集划分	train
数据集参数	all
评估指标名称	准确率
评估指标类型	准确率
评估指标值	0.91