D

Distil Ast Audioset

由 bookbot 开发
基于音频频谱变换器架构的音频分类模型,是对原版AST AudioSet模型的蒸馏版本,适用于音频分类任务。
下载量 917
发布时间 : 3/20/2023
模型介绍
内容详情
替代品

模型简介

该模型是对MIT/ast-finetuned-audioset-10-10-0.4593在AudioSet数据集上的蒸馏版本,主要用于音频分类任务。

模型特点

蒸馏版模型
通过对原版AST AudioSet模型进行蒸馏,减少了模型参数量,同时保持了较好的性能。
高性能音频分类
在AudioSet数据集上表现出色,F1值达到0.4876,ROC AUC为0.7140。
高效训练
使用HuggingFace的PyTorch框架训练,支持混合精度训练,优化了训练效率。

模型能力

音频分类
频谱分析
多标签分类

使用案例

音频处理
环境声音分类
用于识别和分类环境中的各种声音,如动物叫声、交通工具声等。
F1值达到0.4876,ROC AUC为0.7140。
音乐分类
用于对音乐进行分类,识别不同的音乐类型或乐器声音。
平均精度(mAP)为0.4743。