A

Ast Finetuned Audioset 10 10 0.4593

由 MIT 开发
音频频谱图变换器(AST)是基于AudioSet微调的模型,将音频转换为频谱图后应用视觉变换器进行音频分类。
下载量 308.88k
发布时间 : 11/14/2022
模型介绍
内容详情
替代品

模型简介

该模型将音频信号转换为频谱图图像,然后应用视觉变换器(ViT)架构进行音频分类任务,在多个音频分类基准测试中取得了优异表现。

模型特点

频谱图转换
将音频信号转换为视觉频谱图表示,使视觉变换器能够处理音频数据
高性能音频分类
在多个音频分类基准测试中取得了最先进的结果
基于ViT架构
采用视觉变换器架构处理音频频谱图,展示了跨模态应用的潜力

模型能力

音频分类
音频特征提取
频谱图分析

使用案例

音频内容分析
环境声音分类
识别和分类各种环境声音,如动物叫声、交通工具声等
在AudioSet等基准测试中表现优异
音乐分类
对音乐片段进行流派或乐器分类
多媒体内容理解
视频音频分析
结合视频内容进行多模态分析