音频分类

# 音频分类

Ast Finetuned Audioset 10 10 0.4593 ONNX

这是AST(Audio Spectrogram Transformer)模型的ONNX版本，专为音频分类任务设计，在AudioSet数据集上进行了微调。

Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan

该模型是基于Audio Spectrogram Transformer (AST)架构的音频分类模型，在Audioset数据集上预训练后，又在GTZAN音乐流派分类数据集上进行了微调。

Frugal Ai Space

基于wav2vec2架构的音频分类模型，适用于气候相关的声音分类任务

Transformers 英语

Felguk Suno Or People

该模型用于将音频片段分类为'Suno'音乐或'People'音乐。

Transformers 支持多种语言

Whisper Tiny Tel Tam Try1

基于openai/whisper-tiny微调的语音分类模型，在语音命令数据集上表现优异

Ph Audio Classification V1

基于distilhubert微调的音频分类模型，在评估集上达到100%准确率

Seamless M4t V2 Large Speech Encoder

从SeamlessM4Tv2-Large中提取的语音编码器模块，擅长跨语言和多语言的序列级音频分类任务

Transformers 支持多种语言

Music Classifier

基于Wav2Vec2的音频分类模型，用于识别音乐流派

Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan

该模型是基于AST架构在GTZAN音乐分类数据集上微调的音频分类模型，准确率达89%

Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan

该模型是基于 Audio Spectrogram Transformer (AST) 在 GTZAN 音乐分类数据集上微调的版本，用于音频分类任务，准确率达到 88%。

Vietnamese Regional Accent Classification Model

这是一个用于分类越南语方言的音频分类模型，在评估集上F1分数达到0.8217。

thangtrungnguyen

Baby Cry Classification Finetuned Babycry V4

基于wav2vec2-large-xlsr-53-english微调的婴儿哭声分类模型，准确率达81.5%

Speech Emotion Recognition With Facebook Wav2vec2 Large Xlsr 53

基于Wav2Vec2 Large XLSR-53模型微调的语音情感识别系统，能够识别7种常见情感

AST ASVspoof5 Synthetic Voice Detection

基于MIT/ast-finetuned-audioset-10-10-0.4593微调的合成语音检测模型，用于识别音频是否为合成语音。

Genrevim Music Detection DistilHuBERT

该模型是基于DistilHuBERT微调的音频分类模型，专门用于区分音乐与非音乐音频。

基于wav2vec预训练模型在superb数据集上微调的5分类音频分类模型

Wav2vec Base Crema Sentiment Analysis

基于facebook/wav2vec2-base微调的语音情感分析模型，在评估集上达到70.87%的准确率

Wav2vec2 Base Finetuned Ks

基于wav2vec2-base模型在音频文件夹数据集上微调的音频分类模型，验证集准确率达99.82%

Violence Detect 44

基于facebook/wav2vec2-base-960h微调的音频分类模型，用于检测暴力声音

Detect Language

基于Whisper Medium模型微调的语言识别模型，专门用于FLEURS数据集上的语言分类任务

apparaomulpuriril

My Awesome Mind Model

基于facebook/wav2vec2-base微调的音频分类模型，在评估集上达到58.92%的准确率

Vit Base Patch16 1024 128.audiomae As2m Ft As20k

基于视觉变换器(ViT)的音频处理模型，通过自监督掩码自编码器(MAE)方法在AudioSet-2M上预训练并在AudioSet-20k上微调

Wav2vec2 Base Music Speech Both Classification Finetuned Gtzan

基于wav2vec2架构的音频分类模型，在GTZAN数据集上微调，用于音乐和语音分类任务

Cat Dog Sounds Classification

基于wav2vec 2.0架构的语音识别基础模型，在960小时的英语语音数据上预训练

Musical Instrument Detection

基于wav2vec 2.0架构的语音识别基础模型，在960小时英语语音数据上预训练

Classical Composer Classification New

基于facebook/wav2vec2-base-960h的音频分类模型，可识别音频片段所属的古典音乐作曲家

Distilhubert Finetuned Gtzan

该模型是基于DistilHuBERT架构在GTZAN音乐流派分类数据集上微调的音频分类模型，准确率达89%。

Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan

这是一个基于AST(Audio Spectrogram Transformer)架构的音频分类模型，在GTZAN音乐流派分类数据集上进行了微调。

MERT是一种基于自监督学习的声学音乐理解模型，通过教师模型提供伪标签进行预训练。

Distilhubert Finetuned Gtzan

基于distilhubert在GTZAN音乐分类数据集上微调的音频分类模型，准确率达89%

Wav2vec2 Base Finetuned Gtzan

该模型是基于facebook/wav2vec2-base在GTZAN数据集上微调的音频分类模型，主要用于音乐流派分类任务。

Wav2vec2 Base Music Speech Both Classification

基于facebook/wav2vec2-base微调的音频分类模型，用于区分音乐和语音

Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan

基于AST架构的音频分类模型，在GTZAN数据集上微调，用于音乐流派分类任务

Whisper Tiny Finetuned Gtzan

基于openai/whisper-tiny在GTZAN数据集上微调的语音分类模型，准确率达91%

Distilhubert Finetuned Gtzan

该模型是基于DistilHuBERT在GTZAN音乐分类数据集上微调的音频分类模型，主要用于音乐流派分类任务。

Ast Finetuned Audioset 10 10 0.4593

基于AudioSet数据集微调的音频谱图变换器(AST)模型，用于音频分类任务

基于facebook/wav2vec2-base微调的音频分类模型，用于识别音乐流派

Voip Classification

基于facebook/wav2vec2-base微调的语音分类模型，用于音频文件夹数据集的分类任务

该模型用于估计固定声源的到达方向（DOA），基于SOFA数据集训练，通过AST模型微调实现。

Transformers 英语

Neunit Ks Kangyuan0601

该模型是基于facebook/wav2vec2-base在superb数据集上微调的音频分类模型，在评估集上取得了99.87%的准确率。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24