A

Ast Finetuned Audioset 10 10 0.4593 Finetuning ESC 50 Slower LR

由 xpariz10 开发
基于AST架构的音频分类模型,在AudioSet数据集上预训练后,在ESC-50数据集上微调
下载量 22
发布时间 : 12/10/2022

模型简介

该模型是一个音频分类模型,使用AST(Audio Spectrogram Transformer)架构,先在AudioSet数据集上进行预训练,然后在ESC-50环境声音分类数据集上进行微调。

模型特点

基于Transformer的音频处理
采用AST架构,将Transformer成功应用于音频频谱图处理
两阶段训练
先在大型AudioSet数据集上预训练,再在ESC-50数据集上微调
高准确率
在评估集上达到89.29%的准确率

模型能力

音频分类
环境声音识别
声音事件检测

使用案例

智能家居
家电声音识别
识别家中不同电器设备的声音
环境监测
自然环境声音分类
识别森林、城市等不同环境中的声音
AIbase
智启未来,您的人工智能解决方案智库
简体中文