hubert-large-audioset开源模型 - 免费用于通用音频表征学习任务

首页

Hubert Large Audioset

由 ALM 开发

基于HuBERT架构的Transformer模型，在完整AudioSet数据集上进行预训练，适用于通用音频表征学习任务。

音频分类

Transformers

#通用音频表征 #自监督学习 #多领域音频处理

下载量 79

发布时间 : 8/28/2023

模型简介

该模型基于HuBERT架构，在多样化的AudioSet数据集上预训练，能够提取通用音频特征，适用于多种音频处理任务。

模型特点

通用音频表征

在多样化的AudioSet数据集上预训练，能够处理各种音频类型（语音、音乐、环境声等）

基于HuBERT架构

采用HuBERT的自监督学习方法，有效捕捉音频信号的时序特征

迁移学习友好

可作为特征提取器或在下游任务上进行微调

模型能力

音频特征提取

音乐分类

声学事件检测

语音识别（有限能力）

使用案例

音乐分析

音乐流派分类

使用模型提取的特征进行音乐流派自动分类

环境声音分析

声学事件检测

检测环境中的特定声音事件（如警报声、动物叫声等）

🚀 预训练音频表征模型卡片：基于AudioSet数据集

本模型卡片介绍了由ALM发布的预训练音频表征模型。这些模型在完整的AudioSet数据集上进行了预训练，适用于通用的音频表征学习（ARL）任务。

✨ 主要特性

基于Transformer架构，包括HuBERT和Wav2Vec 2.0。
在完整的AudioSet数据集上进行预训练，适用于多种音频表征学习任务。
提供不同大小的模型变体，以满足不同的计算资源和性能需求。

📚 详细文档

模型介绍

1. ALM/hubert-base-audioset

架构：基于HuBERT（Hubert-Base）的Transformer模型
描述：该模型基于HuBERT架构，在完整的AudioSet数据集上进行了预训练。

2. ALM/hubert-large-audioset

架构：基于HuBERT（Hubert-Large）的Transformer模型
描述：与hubert-base-audioset模型类似，但尺寸更大，能够从完整的AudioSet数据集中学习到更丰富的音频表征。

3. ALM/wav2vec2-base-audioset

架构：基于Wav2Vec 2.0（Wav2Vec2-Base）的Transformer模型
描述：该模型基于Wav2Vec 2.0架构，使用自监督学习（SSL）和对比预测编码（CPC）在完整的AudioSet数据集上进行训练。与HuBERT模型相比，它提供了一种不同的音频表征学习方法。

4. ALM/wav2vec2-large-audioset

架构：基于Wav2Vec 2.0（Wav2Vec2-Large）的Transformer模型
描述：与wav2vec2-base-audioset模型类似，但尺寸更大，能够从完整的AudioSet数据集中学习到更强大的音频表征。

预期用途

这些预训练模型适用于广泛的音频表征学习任务，包括但不限于语音识别、音乐分类和声学事件检测。它们可以作为强大的特征提取工具，并可以在特定任务的数据集上进行微调，以用于下游应用。

需要注意的是，虽然这些模型在各种音频领域具有通用性，但在语音相关任务中的性能可能相对低于专门的模型，如原始的Wav2Vec和HuBERT模型。这是因为用于预训练的AudioSet数据集具有多样性，包含了除语音之外的广泛音频源。

局限性和注意事项

模型在完整的AudioSet数据集上进行预训练，可能无法全面覆盖所有可能的音频领域。
为了在某些任务中实现最佳性能，可能需要在特定领域的数据上进行微调。
部署和微调这些模型，尤其是较大的变体，可能需要计算资源。

📄 许可证

本模型采用CC BY-NC-SA 4.0许可证。

🔗 引用

如果您在工作中使用了这些预训练模型，请引用以下文献：

@INPROCEEDINGS{ARCH,
  author={La Quatra, Moreno and Koudounas, Alkis and Vaiani, Lorenzo and Baralis, Elena and Cagliero, Luca and Garza, Paolo and Siniscalchi, Sabato Marco},
  booktitle={2024 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW)}, 
  title={Benchmarking Representations for Speech, Music, and Acoustic Events}, 
  year={2024},
  pages={505-509},
  keywords={Representation learning; Systematics; Conferences; Benchmark testing; Signal processing; Acoustics; Data models; Audio Representation Learning; Benchmark; Pre-trained Models; Self-Supervised Learning},
  doi={10.1109/ICASSPW62465.2024.10625960}
}

arXiv版本：arxiv.org/abs/2405.00934