Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan
Bsd-3-clause
该模型是基于Audio Spectrogram Transformer (AST)架构的音频分类模型,在Audioset数据集上预训练后,又在GTZAN音乐流派分类数据集上进行了微调。
音频分类
Transformers

A
wkCircle
8
0
Frugal Ai Space
基于wav2vec2架构的音频分类模型,适用于气候相关的声音分类任务
音频分类
Transformers

英语
F
dannywillowliu
3
0
Felguk Suno Or People
Apache-2.0
该模型用于将音频片段分类为'Suno'音乐或'People'音乐。
音频分类
Transformers

支持多种语言
F
Felguk
58
1
Whisper Tiny Tel Tam Try1
Apache-2.0
基于openai/whisper-tiny微调的语音分类模型,在语音命令数据集上表现优异
音频分类
Transformers

W
JasHugF
18
0
Ph Audio Classification V1
Apache-2.0
基于distilhubert微调的音频分类模型,在评估集上达到100%准确率
音频分类
Transformers

P
herbiel
272
0
Seamless M4t V2 Large Speech Encoder
从SeamlessM4Tv2-Large中提取的语音编码器模块,擅长跨语言和多语言的序列级音频分类任务
音频分类
Transformers

支持多种语言
S
WueNLP
67
3
Music Classifier
基于Wav2Vec2的音频分类模型,用于识别音乐流派
音频分类
Safetensors
M
gastonduault
478
2
Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan
Bsd-3-clause
该模型是基于AST架构在GTZAN音乐分类数据集上微调的音频分类模型,准确率达89%
音频分类
Transformers

A
eonrad
1
0
Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan
Bsd-3-clause
该模型是基于 Audio Spectrogram Transformer (AST) 在 GTZAN 音乐分类数据集上微调的版本,用于音频分类任务,准确率达到 88%。
音频分类
Transformers

A
abnerh
2
0
Vietnamese Regional Accent Classification Model
这是一个用于分类越南语方言的音频分类模型,在评估集上F1分数达到0.8217。
音频分类
Transformers

V
thangtrungnguyen
36
0
Baby Cry Classification Finetuned Babycry V4
Apache-2.0
基于wav2vec2-large-xlsr-53-english微调的婴儿哭声分类模型,准确率达81.5%
音频分类
Transformers

B
Wiam
120
2
Speech Emotion Recognition With Facebook Wav2vec2 Large Xlsr 53
Apache-2.0
基于Wav2Vec2 Large XLSR-53模型微调的语音情感识别系统,能够识别7种常见情感
音频分类
Transformers

S
firdhokk
66
0
AST ASVspoof5 Synthetic Voice Detection
Bsd-3-clause
基于MIT/ast-finetuned-audioset-10-10-0.4593微调的合成语音检测模型,用于识别音频是否为合成语音。
音频分类
Transformers

A
MattyB95
281
0
Genrevim Music Detection DistilHuBERT
该模型是基于DistilHuBERT微调的音频分类模型,专门用于区分音乐与非音乐音频。
音频分类
Transformers

G
MarekCech
61
0
Testv4
基于wav2vec预训练模型在superb数据集上微调的5分类音频分类模型
音频分类
Transformers

T
anderloh
27
0
Wav2vec Base Crema Sentiment Analysis
Apache-2.0
基于facebook/wav2vec2-base微调的语音情感分析模型,在评估集上达到70.87%的准确率
音频分类
Transformers

W
Piyush2512
38
0
Wav2vec2 Base Finetuned Ks
Apache-2.0
基于wav2vec2-base模型在音频文件夹数据集上微调的音频分类模型,验证集准确率达99.82%
音频分类
Transformers

W
motheecreator
54
3
Violence Detect 44
Apache-2.0
基于facebook/wav2vec2-base-960h微调的音频分类模型,用于检测暴力声音
音频分类
Transformers

V
Hemg
28
0
Detect Language
Apache-2.0
基于Whisper Medium模型微调的语言识别模型,专门用于FLEURS数据集上的语言分类任务
音频分类
Transformers

D
apparaomulpuriril
15
0
My Awesome Mind Model
Apache-2.0
基于facebook/wav2vec2-base微调的音频分类模型,在评估集上达到58.92%的准确率
音频分类
Transformers

M
Krithika-p
15
0
Vit Base Patch16 1024 128.audiomae As2m Ft As20k
基于视觉变换器(ViT)的音频处理模型,通过自监督掩码自编码器(MAE)方法在AudioSet-2M上预训练并在AudioSet-20k上微调
音频分类
V
gaunernst
335
2
Wav2vec2 Base Music Speech Both Classification Finetuned Gtzan
Apache-2.0
基于wav2vec2架构的音频分类模型,在GTZAN数据集上微调,用于音乐和语音分类任务
音频分类
Transformers

W
0bi0n3
15
1
Cat Dog Sounds Classification
Apache-2.0
基于wav2vec 2.0架构的语音识别基础模型,在960小时的英语语音数据上预训练
音频分类
Transformers

C
dima806
25
4
Musical Instrument Detection
Apache-2.0
基于wav2vec 2.0架构的语音识别基础模型,在960小时英语语音数据上预训练
音频分类
Transformers

M
dima806
2,109
7
Classical Composer Classification New
基于facebook/wav2vec2-base-960h的音频分类模型,可识别音频片段所属的古典音乐作曲家
音频分类
Transformers

C
dima806
15
2
Distilhubert Finetuned Gtzan
Apache-2.0
该模型是基于DistilHuBERT架构在GTZAN音乐流派分类数据集上微调的音频分类模型,准确率达89%。
音频分类
Transformers

D
sandychoii
15
0
Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan
Bsd-3-clause
这是一个基于AST(Audio Spectrogram Transformer)架构的音频分类模型,在GTZAN音乐流派分类数据集上进行了微调。
音频分类
Transformers

A
nomad-ai
15
0
Mert Base
MERT是一种基于自监督学习的声学音乐理解模型,通过教师模型提供伪标签进行预训练。
音频分类
Transformers

M
yangwang825
26
0
Distilhubert Finetuned Gtzan
Apache-2.0
基于distilhubert在GTZAN音乐分类数据集上微调的音频分类模型,准确率达89%
音频分类
Transformers

D
VinayHajare
20
1
Wav2vec2 Base Finetuned Gtzan
Apache-2.0
该模型是基于facebook/wav2vec2-base在GTZAN数据集上微调的音频分类模型,主要用于音乐流派分类任务。
音频分类
Transformers

W
wilson-wei
14
0
Wav2vec2 Base Music Speech Both Classification
Apache-2.0
基于facebook/wav2vec2-base微调的音频分类模型,用于区分音乐和语音
音频分类
Transformers

W
FerhatDk
20
0
Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan
Bsd-3-clause
基于AST架构的音频分类模型,在GTZAN数据集上微调,用于音乐流派分类任务
音频分类
Transformers

A
vineetsharma
14
0
Whisper Tiny Finetuned Gtzan
Apache-2.0
基于openai/whisper-tiny在GTZAN数据集上微调的语音分类模型,准确率达91%
音频分类
Transformers

W
vineetsharma
17
0
Distilhubert Finetuned Gtzan
Apache-2.0
该模型是基于DistilHuBERT在GTZAN音乐分类数据集上微调的音频分类模型,主要用于音乐流派分类任务。
音频分类
Transformers

D
susnato
14
0
Ast Finetuned Audioset 10 10 0.4593
基于AudioSet数据集微调的音频谱图变换器(AST)模型,用于音频分类任务
音频分类
Transformers

A
Xenova
82
0
Wav2musicgenre
Apache-2.0
基于facebook/wav2vec2-base微调的音频分类模型,用于识别音乐流派
音频分类
Transformers

W
ramonpzg
20
0
Voip Classification
Apache-2.0
基于facebook/wav2vec2-base微调的语音分类模型,用于音频文件夹数据集的分类任务
音频分类
Transformers

V
james-xie-rng
18
0
Doa Model TL4
Openrail
该模型用于估计固定声源的到达方向(DOA),基于SOFA数据集训练,通过AST模型微调实现。
音频分类
Transformers

英语
D
FidelOdok
15
0
Neunit Ks Kangyuan0601
Apache-2.0
该模型是基于facebook/wav2vec2-base在superb数据集上微调的音频分类模型,在评估集上取得了99.87%的准确率。
音频分类
Transformers

N
SHENMU007
16
0
Neunit Ks 529
Apache-2.0
基于facebook/wav2vec2-base在SUPERB数据集上微调的音频分类模型,准确率达99.98%
音频分类
Transformers

N
SHENMU007
14
0
- 1
- 2
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文