D

DASS Small AudioSet 47.2

由 saurabhati 开发
首个超越基于Transformer的音频分类器的状态空间模型,在AudioSet音频分类任务中实现最先进性能,同时显著减小模型规模。
下载量 47
发布时间 : 3/29/2025
模型介绍
内容详情
替代品

模型简介

基于AudioSet-2M微调的音频分类模型,采用状态空间架构,在音频分类任务中性能优于传统Transformer模型,且具有更强的时长鲁棒性。

模型特点

高效性能
仅含3000万参数的DASS-small性能超越8700万参数的AST模型(mAP 47.2 vs 45.9)
时长鲁棒性
在长音频输入下性能保持稳定,50秒输入仍能保持96%的10秒输入性能
超长音频处理
单块A6000 GPU可处理长达2.5小时的音频输入,性能保持10秒输入的62%
蒸馏学习
结合KL散度损失对标教师AST模型进行训练,提升学习效率

模型能力

音频分类
多标签音频识别
长音频处理

使用案例

音频内容分析
环境声音分类
识别自然环境或城市环境中的各类声音
可准确识别动物叫声、交通工具等声音类别
音频事件检测
检测音频流中的特定事件或声音
可检测如玻璃破碎、警报声等关键事件
媒体内容管理
视频内容标记
通过音频分析辅助视频内容分类
提高视频内容检索和分类效率