DASS_small_AudioSet_47.2开源音频分类模型 - 小体积实现AudioSet分类先进性能

首页

DASS Small AudioSet 47.2

由 saurabhati 开发

首个超越基于Transformer的音频分类器的状态空间模型，在AudioSet音频分类任务中实现最先进性能，同时显著减小模型规模。

音频分类

Transformers

开源协议:Bsd-3-clause #音频分类高效 #长时音频处理 #轻量级模型

下载量 47

发布时间 : 3/29/2025

模型简介

基于AudioSet-2M微调的音频分类模型，采用状态空间架构，在音频分类任务中性能优于传统Transformer模型，且具有更强的时长鲁棒性。

模型特点

高效性能

仅含3000万参数的DASS-small性能超越8700万参数的AST模型（mAP 47.2 vs 45.9）

时长鲁棒性

在长音频输入下性能保持稳定，50秒输入仍能保持96%的10秒输入性能

超长音频处理

单块A6000 GPU可处理长达2.5小时的音频输入，性能保持10秒输入的62%

蒸馏学习

结合KL散度损失对标教师AST模型进行训练，提升学习效率

模型能力

音频分类

多标签音频识别

长音频处理

使用案例

音频内容分析

环境声音分类

识别自然环境或城市环境中的各类声音

可准确识别动物叫声、交通工具等声音类别

音频事件检测

检测音频流中的特定事件或声音

可检测如玻璃破碎、警报声等关键事件

媒体内容管理

视频内容标记

通过音频分析辅助视频内容分类

提高视频内容检索和分类效率

🚀 DASS：蒸馏音频状态空间模型

DASS（Distilled Audio State-space Models）是一个在AudioSet - 2M上微调的音频分类模型。它是首个超越基于Transformer的音频分类器（如AST、HTS - AT和Audio - MAE）的状态空间模型。DASS在音频分类任务上达到了当前最优性能，同时显著减小了模型大小。此外，它在音频时长鲁棒性方面也远优于AST模型。该模型在论文 DASS: Distilled Audio State Space Models Are Stronger and More Duration - Scalable Learners 中被提出，并首次在此仓库发布。

🚀 快速开始

使用以下代码开始使用该模型：

import torch
import librosa
from transformers import AutoConfig, AutoModelForAudioClassification, AutoFeatureExtractor

config = AutoConfig.from_pretrained('saurabhati/DASS_small_AudioSet_47.2',trust_remote_code=True)
audio_model = AutoModelForAudioClassification.from_pretrained('saurabhati/DASS_small_AudioSet_47.2',trust_remote_code=True)
feature_extractor = AutoFeatureExtractor.from_pretrained('saurabhati/DASS_small_AudioSet_47.2',trust_remote_code=True)

waveform, sr = librosa.load("audio/eval/_/_/--4gqARaEJE_0.000.flac", sr=16000)
inputs = feature_extractor(waveform,sr, return_tensors='pt')

with torch.no_grad():
    logits = torch.sigmoid(audio_model(**inputs).logits)

predicted_class_ids = torch.where(logits[0] > 0.5)[0]
predicted_label = [audio_model.config.id2label[i.item()] for i in predicted_class_ids]
predicted_label
['Animal', 'Domestic animals, pets', 'Dog']

✨ 主要特性

性能优越

DASS是首个超越基于Transformer的音频分类器（如AST、HTS - AT和Audio - MAE）的状态空间模型。在AudioSet音频分类任务上达到了当前最优性能，同时显著减小了模型大小。例如，与包含约8700万个参数的AST相比，DASS - small仅包含3000万个参数（约为AST的三分之一），且性能更优（AudioSet - 2M平均精度均值：AST为45.9，DASS - small为47.2）。

时长鲁棒性强

相比AST模型，DASS在时长鲁棒性方面表现显著更优。例如，在使用10秒长的音频进行训练时，当输入音频时长为50秒，AST模型的性能下降到平均精度均值小于5（不足10秒输入时性能的12%），而DASS在相同设置下的性能为45.5（达到10秒输入时性能的96%）。在单张A6000 GPU上，DASS可以处理长达2.5小时的音频输入，并且仍能保持相对于10秒输入时62%的性能。

📚 详细文档

模型细节

DASS模型基于 VMamba: Visual State Space Model 并应用于音频领域。它使用二元交叉熵损失函数（相对于真实标签）和KL散度损失函数（相对于教师模型AST）进行训练。

评估结果

以下是在AudioSet - 2M上微调并评估的DASS模型的结果：

属性	详情
模型类型	蒸馏音频状态空间模型
训练数据	AudioSet - 2M

模型	参数数量	预训练方式	平均精度均值
基于Transformer的模型
AST	87M	IN SL	45.9
HTS - AT	31M	IN SL	47.1
PaSST		IN SL	47.1
Audio - MAE	86M	SSL	47.3
同期状态空间模型
AuM	26M	IN SL	39.7
Audio Mamba	40M	IN SL	44.0
DASS - Small	30M	IN SL	47.2
DASS - Medium	49M	IN SL	47.6

📄 许可证

本项目采用BSD 3 - 条款许可证。

📚 引用

如果您使用了该模型，请引用以下论文：

@article{bhati2024dass,
  title={DASS: Distilled Audio State Space Models Are Stronger and More Duration-Scalable Learners},
  author={Bhati, Saurabhchand and Gong, Yuan and Karlinsky, Leonid and Kuehne, Hilde and Feris, Rogerio and Glass, James},
  journal={arXiv preprint arXiv:2407.04082},
  year={2024}
}