S

Ssast Small Patch Audioset 16 16

由 Simon-Kotchou 开发
基于AudioSet和Librispeech预训练的音频分类模型,采用视觉变换器架构处理音频频谱图
下载量 2,408
发布时间 : 1/10/2024
模型介绍
内容详情
替代品

模型简介

该模型将音频转换为频谱图后应用视觉变换器架构,在多个音频分类任务中取得先进成果。包含未初始化的分类器头部,需微调后使用。

模型特点

自监督预训练
利用大规模音频数据进行自监督学习,无需标注数据即可学习通用音频特征
频谱图变换器架构
将视觉变换器(ViT)创新性地应用于音频频谱图,实现端到端音频特征学习
多任务适应性
预训练模型可通过微调适配多种音频分类任务

模型能力

音频特征提取
音频分类
频谱图分析

使用案例

音频内容分析
环境声音分类
识别录音中的环境声音类型(如雨声、交通噪声等)
在AudioSet基准测试中表现优异
语音内容分类
对语音录音进行内容分类(如情感识别、语种识别等)
基于Librispeech预训练,适合语音相关任务