distil-ast-audioset开源音频分类模型 - 高效完成各类音频分类任务

Distil Ast Audioset

由 bookbot 开发

基于音频频谱变换器架构的音频分类模型，是对原版AST AudioSet模型的蒸馏版本，适用于音频分类任务。

下载量 917

发布时间 : 3/20/2023

模型简介

该模型是对MIT/ast-finetuned-audioset-10-10-0.4593在AudioSet数据集上的蒸馏版本，主要用于音频分类任务。

蒸馏版模型

通过对原版AST AudioSet模型进行蒸馏，减少了模型参数量，同时保持了较好的性能。

高性能音频分类

在AudioSet数据集上表现出色，F1值达到0.4876，ROC AUC为0.7140。

高效训练

使用HuggingFace的PyTorch框架训练，支持混合精度训练，优化了训练效率。

音频分类

频谱分析

多标签分类

音频处理

环境声音分类

用于识别和分类环境中的各种声音，如动物叫声、交通工具声等。

F1值达到0.4876，ROC AUC为0.7140。

音乐分类

用于对音乐进行分类，识别不同的音乐类型或乐器声音。

平均精度(mAP)为0.4743。

蒸馏音频频谱图Transformer AudioSet是一个基于音频频谱图Transformer架构的音频分类模型。该模型是MIT/ast-finetuned-audioset-10-10-0.4593在AudioSet数据集上的蒸馏版本。

此模型使用HuggingFace的PyTorch框架进行训练。所有训练均在配备Tesla A100 GPU的Google Cloud Engine虚拟机上完成。训练所需的所有脚本可在文件和版本选项卡中找到，通过Tensorboard记录的训练指标也可查看。

该模型在评估中取得了以下结果：

模型	F1值	ROC曲线下面积	准确率	平均精度均值
蒸馏音频频谱图Transformer AudioSet	0.4876	0.7140	0.0714	0.4743
音频频谱图Transformer AudioSet	0.4989	0.6905	0.1247	0.5603

训练期间使用了以下超参数：

训练损失	轮数	步数	验证损失	F1值	ROC曲线下面积	准确率	平均精度均值
1.5521	1.0	153	0.7759	0.3929	0.6789	0.0209	0.3394
0.7088	2.0	306	0.5183	0.4480	0.7162	0.0349	0.4047
0.484	3.0	459	0.4342	0.4673	0.7241	0.0447	0.4348
0.369	4.0	612	0.3847	0.4777	0.7332	0.0504	0.4463
0.2943	5.0	765	0.3587	0.4838	0.7284	0.0572	0.4556
0.2446	6.0	918	0.3415	0.4875	0.7296	0.0608	0.4628
0.2099	7.0	1071	0.3273	0.4896	0.7246	0.0648	0.4682
0.186	8.0	1224	0.3140	0.4888	0.7171	0.0689	0.4711
0.1693	9.0	1377	0.3101	0.4887	0.7157	0.0703	0.4741
0.1582	10.0	1530	0.3063	0.4876	0.7140	0.0714	0.4743