A

Ast Finetuned Audioset 10 10 0.448

由 MIT 开发
基于AudioSet数据集微调的音频频谱图变换器(AST),采用视觉变换器结构处理音频频谱图,在音频分类任务中表现优异。
下载量 326
发布时间 : 11/14/2022
模型介绍
内容详情
替代品

模型简介

该模型将音频转换为频谱图后通过视觉变换器处理,适用于音频分类任务,基于AudioSet数据集微调。

模型特点

频谱图转换
将音频信号转换为频谱图形式,利用视觉变换器进行处理。
高性能分类
在多个音频分类基准测试中取得最先进的成果。
基于AudioSet微调
使用大规模AudioSet数据集进行微调,提升模型泛化能力。

模型能力

音频分类
频谱图分析

使用案例

音频分析
环境声音分类
识别和分类环境中的各种声音类型
高准确率的分类效果
音乐分类
对音乐片段进行流派或乐器分类