voc2vec-hubert-ls-pt开源模型 - 免费处理非语言人类数据的实用工具

首页

Voc2vec Hubert Ls Pt

由 alkiskoudounas 开发

voc2vec是专为非语言人类数据设计的基础模型，基于HuBERT框架构建，在125小时非语言音频数据上预训练。

音频分类

Transformers

英语开源协议:Apache-2.0 #非语言发声识别 #婴儿啼哭分类 #HuBERT架构

下载量 114

发布时间 : 4/14/2025

模型简介

该模型专注于非语言人类声音的分类和分析，特别适用于婴儿啼哭等非语言发声场景。

模型特点

非语言发声专用

专门针对非语言人类声音（如婴儿啼哭、笑声等）优化的预训练模型

多数据集预训练

在10个不同数据集组成的125小时非语言音频上进行预训练

HuBERT架构

基于HuBERT框架构建，继承了其优秀的音频表示学习能力

迁移学习友好

从LibriSpeech预训练模型继续训练，适合下游任务微调

模型能力

非语言音频分类

婴儿啼哭识别

音频特征提取

使用案例

婴幼儿护理

婴儿啼哭识别

识别和分析婴儿不同类型的啼哭（饥饿、不适等）

在Donate a Cry等婴儿啼哭数据集上表现优异

医疗辅助

非语言症状分析

分析患者非语言发声以辅助医疗诊断

🚀 voc2vec-hubert-ls-pt

voc2vec是专门为非语言人类数据设计的基础模型。它使用了涵盖约125小时非语言音频的10个数据集，预训练了一个类似HuBERT的模型。

🚀 快速开始

voc2vec-hubert-ls-pt可直接使用，以下是使用示例：

import torch
import librosa
from transformers import AutoModelForAudioClassification, AutoFeatureExtractor

## Load an audio file
audio_array, sr = librosa.load("path_to_audio.wav", sr=16000)

## Load model and feature extractor
model = AutoModelForAudioClassification.from_pretrained("alkiskoudounas/voc2vec-hubert-ls-pt")
feature_extractor = AutoFeatureExtractor.from_pretrained("alkiskoudounas/voc2vec-hubert-ls-pt")

## Extract features
inputs = feature_extractor(audio_array.squeeze(), sampling_rate=feature_extractor.sampling_rate, padding=True, return_tensors="pt")

## Compute logits
logits = model(**inputs).logits

✨ 主要特性

专为非语言人类数据设计，使用多种非语言音频数据集进行预训练。
基于HuBERT框架，延续其预训练设置。
在多个数据集上进行评估，表现优异。

📚 详细文档

模型描述

voc2vec-hubert基于HuBERT框架构建，并遵循其预训练设置。预训练数据集包括：AudioSet（发声）、FreeSound（婴儿）、HumanVoiceDataset、NNIME、NonSpeech7K、ReCANVo、SingingDatabase、TUT（婴儿）、VocalSketch、VocalSound。该模型从一个最初在LibriSpeech数据集上训练的模型继续进行预训练。

任务和数据集描述

我们在六个数据集上评估了voc2vec-hubert-ls-pt：ASVP-ESD、ASPV-ESD（婴儿）、CNVVE、NonVerbal Vocalization Dataset、Donate a Cry、VIVAE。这是目前voc2vec系列中发布的最佳模型。

以下表格报告了上述六个数据集上未加权平均召回率（UAR）和F1宏观指标的平均性能：

模型	架构	预训练数据集	UAR	F1宏观指标
voc2vec	wav2vec 2.0	Voc125	.612±.212	.580±.230
voc2vec-as-pt	wav2vec 2.0	AudioSet + Voc125	.603±.183	.574±.194
voc2vec-ls-pt	wav2vec 2.0	LibriSpeech + Voc125	.661±.206	.636±.223
voc2vec-hubert-ls-pt	HuBERT	LibriSpeech + Voc125	.696±.189	.678±.200

可用模型

模型	描述	链接
voc2vec	在125小时非语言音频上预训练的模型。	🔗 模型
voc2vec-as-pt	从一个最初在AudioSet数据集上训练的类似wav2vec2的模型继续预训练。	🔗 模型
voc2vec-ls-pt	从一个最初在LibriSpeech数据集上训练的类似wav2vec2的模型继续预训练。	🔗 模型
voc2vec-hubert-ls-pt	从一个最初在LibriSpeech数据集上训练的类似hubert的模型继续预训练。	🔗 模型

💻 使用示例

基础用法

import torch
import librosa
from transformers import AutoModelForAudioClassification, AutoFeatureExtractor

## Load an audio file
audio_array, sr = librosa.load("path_to_audio.wav", sr=16000)

## Load model and feature extractor
model = AutoModelForAudioClassification.from_pretrained("alkiskoudounas/voc2vec-hubert-ls-pt")
feature_extractor = AutoFeatureExtractor.from_pretrained("alkiskoudounas/voc2vec-hubert-ls-pt")

## Extract features
inputs = feature_extractor(audio_array.squeeze(), sampling_rate=feature_extractor.sampling_rate, padding=True, return_tensors="pt")

## Compute logits
logits = model(**inputs).logits

📄 许可证

本项目采用Apache-2.0许可证。

📚 引用信息

@INPROCEEDINGS{koudounas2025icassp,
  author={Koudounas, Alkis and La Quatra, Moreno and Siniscalchi, Sabato Marco and Baralis, Elena},
  booktitle={ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, 
  title={voc2vec: A Foundation Model for Non-Verbal Vocalization}, 
  year={2025},
  volume={},
  number={},
  pages={1-5},
  keywords={Pediatrics;Accuracy;Foundation models;Benchmark testing;Signal processing;Data models;Acoustics;Speech processing;Nonverbal vocalization;Representation Learning;Self-Supervised Models;Pre-trained Models},
  doi={10.1109/ICASSP49660.2025.10890672}}