vit_base_patch16_1024_128.audiomae_as2m_ft_as20k开源音频处理模型

首页

Vit Base Patch16 1024 128.audiomae As2m Ft As20k

由 gaunernst 开发

基于视觉变换器(ViT)的音频处理模型，通过自监督掩码自编码器(MAE)方法在AudioSet-2M上预训练并在AudioSet-20k上微调

音频分类 #音频自监督学习 #掩码自编码器 #音频分类

下载量 335

发布时间 : 11/16/2023

模型简介

该模型主要用于音频分类和特征提取任务，能够处理16kHz采样率的音频输入并输出分类结果或特征向量

模型特点

自监督预训练

使用掩码自编码器(MAE)方法在AudioSet-2M上进行自监督预训练，有效学习音频特征

微调优化

在AudioSet-20k数据集上进行了微调，提高了特定任务的性能

高效处理

固定处理1024帧音频输入，适合批量处理标准化长度的音频片段

模型能力

音频分类

音频特征提取

梅尔频谱分析

使用案例

音频分析

音频事件检测

识别音频中的特定事件或声音类别

音频内容理解

提取音频内容的特征表示用于下游任务

🚀 vit_base_patch16_1024_128.audiomae_as2m_ft_as20k模型卡

这是一款用于音频处理的视觉变换器（ViT）模型。它在AudioSet - 2M数据集上使用自监督掩码自编码器（MAE）方法进行预训练，并在AudioSet - 20k数据集上进行微调。

这是AudioMAE ViT - B/16权重的移植版本，可与timm库配合使用。命名约定借鉴了timm库中的其他ViT模型。
查看原始仓库：https://github.com/facebookresearch/AudioMAE
如需获取AudioSet - 2M预训练检查点（未在Audioset - 20k上微调），请访问：https://huggingface.co/gaunernst/vit_base_patch16_1024_128.audiomae_as2m

🚀 快速开始

本模型是针对音频设计的视觉变换器（ViT），通过在AudioSet - 2M数据集上预训练和AudioSet - 20k数据集上微调，可用于音频分类等任务。

✨ 主要特性

基于视觉变换器（ViT）架构，适用于音频领域。
使用自监督掩码自编码器（MAE）方法在AudioSet - 2M数据集上预训练。
在AudioSet - 20k数据集上进行微调，提升模型性能。

📦 安装指南

文档未提及具体安装步骤，可参考timm库的官方安装说明。

💻 使用示例

基础用法

import timm
import torch
import torch.nn.functional as F
from torchaudio.compliance import kaldi

# NOTE: for timm<0.9.11, you also need to pass `global_pool='avg'`
# if only embeddings are needed, pass `num_classes=0`
model = timm.create_model("hf_hub:gaunernst/vit_base_patch16_1024_128.audiomae_as2m_ft_as20k", pretrained=True)
model = model.eval()

MEAN = -4.2677393
STD = 4.5689974

audio = torch.randn(1, 10 * 16_000)  # make sure input is 16kHz
melspec = kaldi.fbank(audio, htk_compat=True, window_type="hanning", num_mel_bins=128)  # shape (n_frames, 128)

# AudioMAE only accepts 1024-frame input
if melspec.shape[0] < 1024:
    melspec = F.pad(melspec, (0, 0, 0, 1024 - melspec.shape[0]))
else:
    melspec = melspec[:1024]
melspec = (melspec - MEAN) / (STD * 2)

melspec = melspec.view(1, 1, 1024, 128)  # add batch dim and channel dim
output = model(melspec)

# for classification
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

# for embeddings
output  # shape (1, 768)

📚 详细文档

模型详情

属性	详情
模型类型	音频分类 / 特征骨干网络
论文	Masked Autoencoders that Listen: https://arxiv.org/abs/2207.06405
预训练数据集	AudioSet - 2M
原始仓库	https://github.com/facebookresearch/AudioMAE

📄 许可证

本模型采用CC - BY - 4.0许可证。

📚 引用

@inproceedings{huang2022amae,
  title = {Masked Autoencoders that Listen},
  author = {Huang, Po-Yao and Xu, Hu and Li, Juncheng and Baevski, Alexei and Auli, Michael and Galuba, Wojciech and Metze, Florian and Feichtenhofer, Christoph}
  booktitle = {NeurIPS},
  year = {2022}
}

@misc{rw2019timm,
  author = {Ross Wightman},
  title = {PyTorch Image Models},
  year = {2019},
  publisher = {GitHub},
  journal = {GitHub repository},
  doi = {10.5281/zenodo.4414861},
  howpublished = {\url{https://github.com/huggingface/pytorch-image-models}}
}