hubert-base-audioset开源音频表征模型 - 适用于通用音频任务免费部署

首页

Hubert Base Audioset

由 ALM 开发

基于HuBERT架构的音频表征模型，在完整AudioSet数据集上预训练，适用于通用音频任务

音频分类

Transformers

#通用音频表征 #多领域适用 #自监督学习

下载量 345

发布时间 : 8/29/2023

模型简介

该模型采用HuBERT架构，在完整AudioSet数据集上进行预训练，能够提取通用音频特征，适用于多种音频处理任务

模型特点

AudioSet完整数据集预训练

使用完整的AudioSet数据集进行预训练，覆盖广泛的音频类别

通用音频表征

学习到的特征适用于多种音频任务，包括音乐分类和声学事件检测

HuBERT架构优势

利用HuBERT的自监督学习框架，有效捕捉音频信号的潜在特征

模型能力

音频特征提取

音乐分类

声学事件检测

语音识别辅助

使用案例

音频分析

音乐流派分类

提取音乐音频特征用于流派分类

环境声音识别

识别环境中的特定声音事件

语音处理

语音识别辅助

作为语音识别系统的前端特征提取器

效果可能逊于专用语音模型

🚀 预训练音频表征模型：AudioSet上的模型卡

本模型卡介绍了由ALM发布的预训练音频表征模型的相关信息。这些模型在完整的AudioSet数据集上进行了预训练，适用于通用的音频表征学习（ARL）任务。

📚 模型介绍

1. ALM/hubert-base-audioset

架构：基于HuBERT（Hubert-Base）的Transformer模型
描述：该模型基于HuBERT架构，在完整的AudioSet数据集上进行了预训练。

2. ALM/hubert-large-audioset

架构：基于HuBERT（Hubert-Large）的Transformer模型
描述：与hubert-base-audioset模型类似，但规模更大，能够从完整的AudioSet数据集中捕获更多的音频表征信息。

3. ALM/wav2vec2-base-audioset

架构：基于Wav2Vec 2.0（Wav2Vec2-Base）的Transformer模型
描述：该模型基于Wav2Vec 2.0架构，使用带有对比预测编码（CPC）的自监督学习（SSL）方法在完整的AudioSet数据集上进行训练。与HuBERT模型相比，它提供了一种不同的音频表征学习方法。

4. ALM/wav2vec2-large-audioset

架构：基于Wav2Vec 2.0（Wav2Vec2-Large）的Transformer模型
描述：与wav2vec2-base-audioset模型类似，但规模更大，能够从完整的AudioSet数据集中学习到更丰富的音频表征信息。

🎯 预期用途

这些预训练模型适用于广泛的音频表征学习任务，包括但不限于语音识别、音乐分类和声学事件检测。它们是强大的特征提取工具，可在特定任务的数据集上进行微调，以用于下游应用。

需要注意的是，虽然这些模型在各种音频领域具有通用性，但在语音相关任务中的表现可能相对低于专门的模型，如原始的Wav2Vec和HuBERT模型。这是因为用于预训练的AudioSet数据集具有多样性，包含了除语音之外的广泛音频来源。

⚠️ 局限性和注意事项

这些模型在完整的AudioSet数据集上进行预训练，可能无法全面覆盖所有可能的音频领域。
为了在某些任务上达到最佳性能，可能需要在特定领域的数据上进行微调。
部署和微调这些模型，尤其是较大的变体，可能需要一定的计算资源。

📄 许可证

本模型采用CC BY-NC-SA 4.0许可证。

📖 引用

如果您在工作中使用了这些预训练模型，请引用以下内容：

@INPROCEEDINGS{ARCH,
  author={La Quatra, Moreno and Koudounas, Alkis and Vaiani, Lorenzo and Baralis, Elena and Cagliero, Luca and Garza, Paolo and Siniscalchi, Sabato Marco},
  booktitle={2024 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW)}, 
  title={Benchmarking Representations for Speech, Music, and Acoustic Events}, 
  year={2024},
  pages={505-509},
  keywords={Representation learning; Systematics; Conferences; Benchmark testing; Signal processing; Acoustics; Data models; Audio Representation Learning; Benchmark; Pre-trained Models; Self-Supervised Learning},
  doi={10.1109/ICASSPW62465.2024.10625960}
}

arXiv版本：arxiv.org/abs/2405.00934