许可协议:apache-2.0
标签:
- 训练生成
数据集:
- 音频文件夹
评估指标:
- 准确率
- F1值
- 精确率
- 召回率
模型索引:
- 名称:wav2vec2-base-Drum_Kit_Sounds
结果:[]
语言:
- 英语
任务标签:音频分类
wav2vec2-base-Drum_Kit_Sounds
该模型是基于facebook/wav2vec2-base微调后的版本。
在评估集上取得了以下结果:
- 损失:1.0887
- 准确率:0.7812
- F1值
- 加权:0.7692
- 微平均:0.7812
- 宏平均:0.7845
- 召回率
- 加权:0.7812
- 微平均:0.7812
- 宏平均:0.8187
- 精确率
- 加权:0.8717
- 微平均:0.7812
- 宏平均:0.8534
模型描述
这是一个多类别分类模型,用于判断音频样本中敲击的是哪种鼓。可选项包括:底鼓(kick)、悬镲(overheads)、军鼓(snare)和通鼓(toms)。
关于模型创建过程的更多信息,请查看以下链接:
https://github.com/DunnBC22/Vision_Audio_and_Multimodal_Projects/blob/main/Audio-Projects/Classification/Audio-Drum_Kit_Sounds.ipynb
预期用途与限制
该模型旨在展示我运用技术解决复杂问题的能力。
训练与评估数据
数据集来源:https://www.kaggle.com/datasets/anubhavchhabra/drum-kit-sound-samples
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率:3e-05
- 训练批次大小:32
- 评估批次大小:32
- 随机种子:42
- 优化器:Adam(beta1=0.9,beta2=0.999,epsilon=1e-08)
- 学习率调度器类型:线性
- 学习率预热比例:0.1
- 训练轮次:12
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
准确率 |
加权F1 |
微平均F1 |
宏平均F1 |
加权召回率 |
微平均召回率 |
宏平均召回率 |
加权精确率 |
微平均精确率 |
宏平均精确率 |
1.3743 |
1.0 |
4 |
1.3632 |
0.5625 |
0.5801 |
0.5625 |
0.5678 |
0.5625 |
0.5625 |
0.5670 |
0.6786 |
0.5625 |
0.6429 |
1.3074 |
2.0 |
8 |
1.3149 |
0.3438 |
0.2567 |
0.3438 |
0.2696 |
0.3438 |
0.3438 |
0.375 |
0.3067 |
0.3438 |
0.3148 |
1.2393 |
3.0 |
12 |
1.3121 |
0.2188 |
0.0785 |
0.2188 |
0.0897 |
0.2188 |
0.2188 |
0.25 |
0.0479 |
0.2188 |
0.0547 |
1.2317 |
4.0 |
16 |
1.3112 |
0.2812 |
0.1800 |
0.2812 |
0.2057 |
0.2812 |
0.2812 |
0.3214 |
0.2698 |
0.2812 |
0.3083 |
1.2107 |
5.0 |
20 |
1.2604 |
0.4375 |
0.3030 |
0.4375 |
0.3462 |
0.4375 |
0.4375 |
0.5 |
0.2552 |
0.4375 |
0.2917 |
1.1663 |
6.0 |
24 |
1.2112 |
0.4688 |
0.3896 |
0.4688 |
0.4310 |
0.4688 |
0.4688 |
0.5268 |
0.5041 |
0.4688 |
0.5404 |
1.1247 |
7.0 |
28 |
1.1746 |
0.5938 |
0.5143 |
0.5938 |
0.5603 |
0.5938 |
0.5938 |
0.6562 |
0.5220 |
0.5938 |
0.5609 |
1.0856 |
8.0 |
32 |
1.1434 |
0.5938 |
0.5143 |
0.5938 |
0.5603 |
0.5938 |
0.5938 |
0.6562 |
0.5220 |
0.5938 |
0.5609 |
1.0601 |
9.0 |
36 |
1.1417 |
0.6562 |
0.6029 |
0.6562 |
0.6389 |
0.6562 |
0.6562 |
0.7125 |
0.8440 |
0.6562 |
0.8217 |
1.0375 |
10.0 |
40 |
1.1227 |
0.6875 |
0.6582 |
0.6875 |
0.6831 |
0.6875 |
0.6875 |
0.7330 |
0.8457 |
0.6875 |
0.8237 |
1.0168 |
11.0 |
44 |
1.1065 |
0.7812 |
0.7692 |
0.7812 |
0.7845 |
0.7812 |
0.7812 |
0.8187 |
0.8717 |
0.7812 |
0.8534 |
1.0093 |
12.0 |
48 |
1.0887 |
0.7812 |
0.7692 |
0.7812 |
0.7845 |
0.7812 |
0.7812 |
0.8187 |
0.8717 |
0.7812 |
0.8534 |
框架版本
- Transformers 4.25.1
- PyTorch 1.12.1
- Datasets 2.8.0
- Tokenizers 0.12.1