wav2vec2-base-100k-gtzan-music-genres开源音频模型

首页

Wav2vec2 Base 100k Gtzan Music Genres

由 m3hrdadfi 开发

基于Wav2Vec 2.0架构的音频分类模型，专门用于音乐流派识别

音频分类

Transformers

#音频分类 #高精度音乐识别 #Wav2Vec2迁移学习

下载量 405

发布时间 : 3/2/2022

模型简介

该模型使用Wav2Vec 2.0架构进行音乐流派分类，能够识别10种不同的音乐流派，包括蓝调、古典、乡村、迪斯科等。

模型特点

高精度流派识别

在GTZAN数据集上表现出色，对迪斯科等流派的识别准确率高达99.8%

基于Wav2Vec 2.0架构

利用先进的语音表示学习架构，有效提取音频特征

多流派分类

支持10种不同音乐流派的分类

模型能力

音乐流派识别

音频特征提取

音频分类

使用案例

音乐推荐系统

自动音乐分类

为音乐库中的曲目自动添加流派标签

准确率高达77.5%的流派分类能力

音乐分析

音乐内容分析

分析音乐音频特征，识别其所属流派

提供详细的流派概率分布

🚀 使用Wav2Vec 2.0进行音乐流派分类

本项目利用Wav2Vec 2.0实现音乐流派分类，能够准确识别不同音乐的流派，为音乐分析和推荐等领域提供支持。

🚀 快速开始

🔧 环境准备

运行此项目需要安装以下依赖包，可使用以下命令进行安装：

# 安装所需的包
!pip install git+https://github.com/huggingface/datasets.git
!pip install git+https://github.com/huggingface/transformers.git
!pip install torchaudio
!pip install librosa

💻 使用示例

基础用法

import torch
import torch.nn as nn
import torch.nn.functional as F
import torchaudio
from transformers import AutoConfig, Wav2Vec2FeatureExtractor

import librosa
import IPython.display as ipd
import numpy as np
import pandas as pd

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model_name_or_path = "m3hrdadfi/wav2vec2-base-100k-voxpopuli-gtzan-music"
config = AutoConfig.from_pretrained(model_name_or_path)
feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(model_name_or_path)
sampling_rate = feature_extractor.sampling_rate
model = Wav2Vec2ForSpeechClassification.from_pretrained(model_name_or_path).to(device)

def speech_file_to_array_fn(path, sampling_rate):
    speech_array, _sampling_rate = torchaudio.load(path)
    resampler = torchaudio.transforms.Resample(_sampling_rate)
    speech = resampler(speech_array).squeeze().numpy()
    return speech


def predict(path, sampling_rate):
    speech = speech_file_to_array_fn(path, sampling_rate)
    inputs = feature_extractor(speech, sampling_rate=sampling_rate, return_tensors="pt", padding=True)
    inputs = {key: inputs[key].to(device) for key in inputs}

    with torch.no_grad():
        logits = model(**inputs).logits

    scores = F.softmax(logits, dim=1).detach().cpu().numpy()[0]
    outputs = [{"Label": config.id2label[i], "Score": f"{round(score * 100, 3):.1f}%"} for i, score in enumerate(scores)]
    return outputs

path = "genres_original/disco/disco.00067.wav"
outputs = predict(path, sampling_rate)

[
{'Label': 'blues', 'Score': '0.0%'},
{'Label': 'classical', 'Score': '0.0%'},
{'Label': 'country', 'Score': '0.0%'},
{'Label': 'disco', 'Score': '99.8%'},
{'Label': 'hiphop', 'Score': '0.0%'},
{'Label': 'jazz', 'Score': '0.0%'},
{'Label': 'metal', 'Score': '0.0%'},
{'Label': 'pop', 'Score': '0.0%'},
{'Label': 'reggae', 'Score': '0.0%'},
{'Label': 'rock', 'Score': '0.0%'}
]

📊 评估结果

以下表格总结了模型在整体和每个类别上的得分：

标签	精确率	召回率	F1分数	样本数
blues	0.792	0.950	0.864	20
classical	0.864	0.950	0.905	20
country	0.812	0.650	0.722	20
disco	0.778	0.700	0.737	20
hiphop	0.933	0.700	0.800	20
jazz	1.000	0.850	0.919	20
metal	0.783	0.900	0.837	20
pop	0.917	0.550	0.687	20
reggae	0.543	0.950	0.691	20
rock	0.611	0.550	0.579	20
accuracy	0.775	0.775	0.775	0
macro avg	0.803	0.775	0.774	200
weighted avg	0.803	0.775	0.774	200