V

Vit Base Patch16 1024 128.audiomae As2m Ft As20k

由 gaunernst 开发
基于视觉变换器(ViT)的音频处理模型,通过自监督掩码自编码器(MAE)方法在AudioSet-2M上预训练并在AudioSet-20k上微调
下载量 335
发布时间 : 11/16/2023
模型介绍
内容详情
替代品

模型简介

该模型主要用于音频分类和特征提取任务,能够处理16kHz采样率的音频输入并输出分类结果或特征向量

模型特点

自监督预训练
使用掩码自编码器(MAE)方法在AudioSet-2M上进行自监督预训练,有效学习音频特征
微调优化
在AudioSet-20k数据集上进行了微调,提高了特定任务的性能
高效处理
固定处理1024帧音频输入,适合批量处理标准化长度的音频片段

模型能力

音频分类
音频特征提取
梅尔频谱分析

使用案例

音频分析
音频事件检测
识别音频中的特定事件或声音类别
音频内容理解
提取音频内容的特征表示用于下游任务