ast-finetuned-audioset-14-14-0.443开源模型 - 高效转换音频到频谱图并精准分类

首页

Ast Finetuned Audioset 14 14 0.443

由 MIT 开发

基于AudioSet数据集微调的音频频谱图变换器，将音频转换为频谱图后使用视觉变换器架构处理，在音频分类任务中表现优异。

音频分类

Transformers

开源协议:Bsd-3-clause #音频分类 #频谱图变换器 #AudioSet微调

下载量 194.20k

发布时间 : 11/14/2022

模型简介

该模型采用视觉变换器架构处理音频频谱图，专门用于音频分类任务，在AudioSet数据集上进行了微调。

模型特点

频谱图转换

将音频信号转换为频谱图形式，使视觉变换器架构能够处理音频数据

基于Transformer

采用视觉变换器架构，避免了传统CNN的归纳偏置

AudioSet微调

在大型音频数据集AudioSet上进行微调，具有强大的音频分类能力

模型能力

音频分类

频谱图分析

多类别音频识别

使用案例

音频分析

环境声音分类

识别和分类各种环境声音，如动物叫声、交通工具声等

音乐分类

对音乐片段进行分类，识别流派或乐器

多媒体内容分析

视频音频分析

分析视频中的音频内容，辅助视频分类和检索

属性	详情
模型类型	音频频谱图Transformer（在AudioSet上微调）
训练数据	AudioSet

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Ast Finetuned Audioset 14 14 0.443

模型简介

模型特点

模型能力

使用案例

🚀 音频频谱图Transformer（在AudioSet上微调）

🚀 快速开始

✨ 主要特性

📄 许可证