A

Ast Finetuned Audioset 14 14 0.443

由 MIT 开发
基于AudioSet数据集微调的音频频谱图变换器,将音频转换为频谱图后使用视觉变换器架构处理,在音频分类任务中表现优异。
下载量 194.20k
发布时间 : 11/14/2022
模型介绍
内容详情
替代品

模型简介

该模型采用视觉变换器架构处理音频频谱图,专门用于音频分类任务,在AudioSet数据集上进行了微调。

模型特点

频谱图转换
将音频信号转换为频谱图形式,使视觉变换器架构能够处理音频数据
基于Transformer
采用视觉变换器架构,避免了传统CNN的归纳偏置
AudioSet微调
在大型音频数据集AudioSet上进行微调,具有强大的音频分类能力

模型能力

音频分类
频谱图分析
多类别音频识别

使用案例

音频分析
环境声音分类
识别和分类各种环境声音,如动物叫声、交通工具声等
音乐分类
对音乐片段进行分类,识别流派或乐器
多媒体内容分析
视频音频分析
分析视频中的音频内容,辅助视频分类和检索