ast-finetuned-audioset开源音频分类模型 - 精准分类，免费部署畅享音频处理便利

首页

Ast Finetuned Audioset 10 10 0.4593 Finetuning ESC 50 Slower LR

由 xpariz10 开发

基于AST架构的音频分类模型，在AudioSet数据集上预训练后，在ESC-50数据集上微调

音频分类

Transformers

开源协议:Bsd-3-clause #音频分类 #高准确率 #迁移学习

下载量 22

发布时间 : 12/10/2022

模型简介

该模型是一个音频分类模型，使用AST(Audio Spectrogram Transformer)架构，先在AudioSet数据集上进行预训练，然后在ESC-50环境声音分类数据集上进行微调。

模型特点

基于Transformer的音频处理

采用AST架构，将Transformer成功应用于音频频谱图处理

两阶段训练

先在大型AudioSet数据集上预训练，再在ESC-50数据集上微调

高准确率

在评估集上达到89.29%的准确率

模型能力

音频分类

环境声音识别

声音事件检测

使用案例

智能家居

家电声音识别

识别家中不同电器设备的声音

环境监测

自然环境声音分类

识别森林、城市等不同环境中的声音

训练损失	轮数	步数	验证损失	准确率
9.3646	1.0	28	6.0136	0.0893
2.9631	2.0	56	2.0175	0.5357
1.2435	3.0	84	1.1471	0.7679
0.7699	4.0	112	0.8559	0.875
0.5911	5.0	140	0.7837	0.8929

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Ast Finetuned Audioset 10 10 0.4593 Finetuning ESC 50 Slower LR

模型简介

模型特点

模型能力

使用案例

🚀 ast-finetuned-audioset-10-10-0.4593-finetuning-ESC-50-slower-LR

🚀 快速开始

🔧 技术细节

训练超参数

训练结果

框架版本

📄 许可证