A

Ast Finetuned Audioset 16 16 0.442

由 MIT 开发
基于AudioSet数据集微调的音频频谱变换器,采用视觉变换器架构处理音频频谱图,在音频分类任务中表现优异。
下载量 35
发布时间 : 11/14/2022
模型介绍
内容详情
替代品

模型简介

该模型将音频转换为频谱图后通过视觉变换器处理,专门用于音频分类任务,支持AudioSet数据集中的多种音频类别识别。

模型特点

频谱图转换处理
将音频信号转换为频谱图形式,利用视觉变换器架构进行处理,实现高效的音频特征提取。
AudioSet微调
基于大规模AudioSet数据集进行微调,具备强大的音频分类能力。
最先进性能
在多个音频分类基准测试中取得了最先进的成果。

模型能力

音频分类
频谱图分析
多类别音频识别

使用案例

音频内容分析
环境声音识别
识别自然环境或城市环境中的各类声音
可准确分类数百种环境声音类型
音乐分类
对音乐片段进行流派或乐器分类
多媒体内容审核
不当内容检测
识别音频中的暴力、不当语言等内容