A

Ast Finetuned Audioset 10 10 0.450

由 MIT 开发
基于AudioSet数据集微调的音频频谱变换器,采用ViT架构处理音频频谱图,在音频分类任务中表现优异。
下载量 109
发布时间 : 11/14/2022
模型介绍
内容详情
替代品

模型简介

该模型将音频转换为频谱图后使用视觉变换器进行处理,适用于音频分类任务,在多个基准测试中达到最先进水平。

模型特点

频谱图处理
将音频信号转换为频谱图形式,利用视觉变换器架构进行处理
AudioSet微调
基于大规模AudioSet数据集进行微调,具备强大的音频分类能力
最先进性能
在多个音频分类基准测试中取得最先进的成果

模型能力

音频分类
频谱图分析
多类别音频识别

使用案例

音频内容分析
环境声音分类
识别和分类各种环境声音(如动物叫声、交通工具声等)
可准确分类AudioSet中的527个声音类别
音乐分类
对音乐片段进行流派或乐器分类
多媒体内容审核
不当内容检测
识别音频中的不当或敏感内容