whisper-small-ft-balbus-sep28k-v1.5开源音频分类模型

Whisper Small Ft Balbus Sep28k V1.5

由 b-brave 开发

基于openai/whisper-small微调的音频分类模型，在苹果数据集上训练，适用于特定音频分类任务。

下载量 25

发布时间 : 2/3/2025

模型简介

该模型是基于openai/whisper-small在苹果数据集上微调的版本，主要用于音频分类任务。在评估集上取得了0.8101的准确率和0.7695的F1值。

高准确率

在苹果数据集上取得了0.8101的准确率，表现优异。

优化的训练参数

使用精细调整的超参数进行训练，包括学习率2e-06和批次大小16，确保模型性能。

基于Whisper架构

基于openai/whisper-small架构，继承了其优秀的音频处理能力。

音频分类

特定音频识别

农业

苹果质量检测

通过音频分析检测苹果的质量或成熟度

准确率81.01%

该模型是基于 openai/whisper-small 在Apple dataset数据集上进行微调的版本。它在评估集上取得了以下成绩：

本模型是在Apple dataset数据集上对 openai/whisper-small 进行微调后的版本，在评估集上展现出了良好的性能。

该模型名为 miosipof/whisper-small-ft-balbus-sep28k-v1.6，在音频分类任务上的评估结果如下：

任务	数据集	评估指标	值
音频分类	Apple dataset（balbus-classifier，默认配置，训练集）	准确率	0.8100908806016922
音频分类	Apple dataset（balbus-classifier，默认配置，训练集）	精确率	0.8183656957928802
音频分类	Apple dataset（balbus-classifier，默认配置，训练集）	召回率	0.7261306532663316
音频分类	Apple dataset（balbus-classifier，默认配置，训练集）	F1值	0.7694941042221377

训练过程中使用了以下超参数：

训练损失	轮数	步数	验证损失	准确率	精确率	召回率	F1值	ROC-AUC值
0.1683	0.2506	200	0.1682	0.5730	0.7364	0.0341	0.0652	0.5123
0.1494	0.5013	400	0.1446	0.7084	0.6603	0.6838	0.6718	0.7056
0.1212	0.7519	600	0.1236	0.7629	0.6917	0.8245	0.7523	0.7699
0.1088	1.0025	800	0.1107	0.8062	0.8337	0.6945	0.7578	0.7936
0.0955	1.2531	1000	0.1106	0.8081	0.8036	0.7416	0.7713	0.8006
0.0997	1.5038	1200	0.1091	0.8101	0.8184	0.7261	0.7695	0.8006