音频分类
Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan
Bsd-3-clause
该模型是基于Audio Spectrogram Transformer (AST)架构的音频分类模型,在Audioset数据集上预训练后,又在GTZAN音乐流派分类数据集上进行了微调。
音频分类
Transformers
A
wkCircle
8
0
Frugal Ai Space
基于wav2vec2架构的音频分类模型,适用于气候相关的声音分类任务
音频分类
Transformers
英语
F
dannywillowliu
3
0
Felguk Suno Or People
Apache-2.0
该模型用于将音频片段分类为'Suno'音乐或'People'音乐。
音频分类
Transformers
支持多种语言
F
Felguk
58
1
Whisper Tiny Tel Tam Try1
Apache-2.0
基于openai/whisper-tiny微调的语音分类模型,在语音命令数据集上表现优异
音频分类
Transformers
W
JasHugF
18
0
Ph Audio Classification V1
Apache-2.0
基于distilhubert微调的音频分类模型,在评估集上达到100%准确率
音频分类
Transformers
P
herbiel
272
0
Seamless M4t V2 Large Speech Encoder
从SeamlessM4Tv2-Large中提取的语音编码器模块,擅长跨语言和多语言的序列级音频分类任务
音频分类
Transformers
支持多种语言
S
WueNLP
67
3
Music Classifier
基于Wav2Vec2的音频分类模型,用于识别音乐流派
音频分类
Safetensors
M
gastonduault
478
2
Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan
Bsd-3-clause
该模型是基于AST架构在GTZAN音乐分类数据集上微调的音频分类模型,准确率达89%
音频分类
Transformers
A
eonrad
1
0
Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan
Bsd-3-clause
该模型是基于 Audio Spectrogram Transformer (AST) 在 GTZAN 音乐分类数据集上微调的版本,用于音频分类任务,准确率达到 88%。
音频分类
Transformers
A
abnerh
2
0
Vietnamese Regional Accent Classification Model
这是一个用于分类越南语方言的音频分类模型,在评估集上F1分数达到0.8217。
音频分类
Transformers
V
thangtrungnguyen
36
0
Baby Cry Classification Finetuned Babycry V4
Apache-2.0
基于wav2vec2-large-xlsr-53-english微调的婴儿哭声分类模型,准确率达81.5%
音频分类
Transformers
B
Wiam
120
2
Speech Emotion Recognition With Facebook Wav2vec2 Large Xlsr 53
Apache-2.0
基于Wav2Vec2 Large XLSR-53模型微调的语音情感识别系统,能够识别7种常见情感
音频分类
Transformers
S
firdhokk
66
0
AST ASVspoof5 Synthetic Voice Detection
Bsd-3-clause
基于MIT/ast-finetuned-audioset-10-10-0.4593微调的合成语音检测模型,用于识别音频是否为合成语音。
音频分类
Transformers
A
MattyB95
281
0
Genrevim Music Detection DistilHuBERT
该模型是基于DistilHuBERT微调的音频分类模型,专门用于区分音乐与非音乐音频。
音频分类
Transformers
G
MarekCech
61
0
Testv4
基于wav2vec预训练模型在superb数据集上微调的5分类音频分类模型
音频分类
Transformers
T
anderloh
27
0
Wav2vec Base Crema Sentiment Analysis
Apache-2.0
基于facebook/wav2vec2-base微调的语音情感分析模型,在评估集上达到70.87%的准确率
音频分类
Transformers
W
Piyush2512
38
0
Wav2vec2 Base Finetuned Ks
Apache-2.0
基于wav2vec2-base模型在音频文件夹数据集上微调的音频分类模型,验证集准确率达99.82%
音频分类
Transformers
W
motheecreator
54
3
Violence Detect 44
Apache-2.0
基于facebook/wav2vec2-base-960h微调的音频分类模型,用于检测暴力声音
音频分类
Transformers
V
Hemg
28
0
Detect Language
Apache-2.0
基于Whisper Medium模型微调的语言识别模型,专门用于FLEURS数据集上的语言分类任务
音频分类
Transformers
D
apparaomulpuriril
15
0
My Awesome Mind Model
Apache-2.0
基于facebook/wav2vec2-base微调的音频分类模型,在评估集上达到58.92%的准确率
音频分类
Transformers
M
Krithika-p
15
0
Vit Base Patch16 1024 128.audiomae As2m Ft As20k
基于视觉变换器(ViT)的音频处理模型,通过自监督掩码自编码器(MAE)方法在AudioSet-2M上预训练并在AudioSet-20k上微调
音频分类
V
gaunernst
335
2
Wav2vec2 Base Music Speech Both Classification Finetuned Gtzan
Apache-2.0
基于wav2vec2架构的音频分类模型,在GTZAN数据集上微调,用于音乐和语音分类任务
音频分类
Transformers
W
0bi0n3
15
1
Cat Dog Sounds Classification
Apache-2.0
基于wav2vec 2.0架构的语音识别基础模型,在960小时的英语语音数据上预训练
音频分类
Transformers
C
dima806
25
4
Musical Instrument Detection
Apache-2.0
基于wav2vec 2.0架构的语音识别基础模型,在960小时英语语音数据上预训练
音频分类
Transformers
M
dima806
2,109
7
Classical Composer Classification New
基于facebook/wav2vec2-base-960h的音频分类模型,可识别音频片段所属的古典音乐作曲家
音频分类
Transformers
C
dima806
15
2
Distilhubert Finetuned Gtzan
Apache-2.0
该模型是基于DistilHuBERT架构在GTZAN音乐流派分类数据集上微调的音频分类模型,准确率达89%。
音频分类
Transformers
D
sandychoii
15
0
Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan
Bsd-3-clause
这是一个基于AST(Audio Spectrogram Transformer)架构的音频分类模型,在GTZAN音乐流派分类数据集上进行了微调。
音频分类
Transformers
A
nomad-ai
15
0
Mert Base
MERT是一种基于自监督学习的声学音乐理解模型,通过教师模型提供伪标签进行预训练。
音频分类
Transformers
M
yangwang825
26
0
Distilhubert Finetuned Gtzan
Apache-2.0
基于distilhubert在GTZAN音乐分类数据集上微调的音频分类模型,准确率达89%
音频分类
Transformers
D
VinayHajare
20
1
Wav2vec2 Base Finetuned Gtzan
Apache-2.0
该模型是基于facebook/wav2vec2-base在GTZAN数据集上微调的音频分类模型,主要用于音乐流派分类任务。
音频分类
Transformers
W
wilson-wei
14
0
Wav2vec2 Base Music Speech Both Classification
Apache-2.0
基于facebook/wav2vec2-base微调的音频分类模型,用于区分音乐和语音
音频分类
Transformers
W
FerhatDk
20
0
Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan
Bsd-3-clause
基于AST架构的音频分类模型,在GTZAN数据集上微调,用于音乐流派分类任务
音频分类
Transformers
A
vineetsharma
14
0
Whisper Tiny Finetuned Gtzan
Apache-2.0
基于openai/whisper-tiny在GTZAN数据集上微调的语音分类模型,准确率达91%
音频分类
Transformers
W
vineetsharma
17
0
Distilhubert Finetuned Gtzan
Apache-2.0
该模型是基于DistilHuBERT在GTZAN音乐分类数据集上微调的音频分类模型,主要用于音乐流派分类任务。
音频分类
Transformers
D
susnato
14
0
Ast Finetuned Audioset 10 10 0.4593
基于AudioSet数据集微调的音频谱图变换器(AST)模型,用于音频分类任务
音频分类
Transformers
A
Xenova
82
0
Wav2musicgenre
Apache-2.0
基于facebook/wav2vec2-base微调的音频分类模型,用于识别音乐流派
音频分类
Transformers
W
ramonpzg
20
0
Voip Classification
Apache-2.0
基于facebook/wav2vec2-base微调的语音分类模型,用于音频文件夹数据集的分类任务
音频分类
Transformers
V
james-xie-rng
18
0
Doa Model TL4
Openrail
该模型用于估计固定声源的到达方向(DOA),基于SOFA数据集训练,通过AST模型微调实现。
音频分类
Transformers
英语
D
FidelOdok
15
0
Neunit Ks Kangyuan0601
Apache-2.0
该模型是基于facebook/wav2vec2-base在superb数据集上微调的音频分类模型,在评估集上取得了99.87%的准确率。
音频分类
Transformers
N
SHENMU007
16
0
Neunit Ks 529
Apache-2.0
基于facebook/wav2vec2-base在SUPERB数据集上微调的音频分类模型,准确率达99.98%
音频分类
Transformers
N
SHENMU007
14
0