音频特征提取
Voc2vec Hubert Ls Pt
Apache-2.0
voc2vec是专为非语言人类数据设计的基础模型,基于HuBERT框架构建,在125小时非语言音频数据上预训练。
音频分类
Transformers
英语
V
alkiskoudounas
114
1
Voc2vec As Pt
Apache-2.0
voc2vec是一个专门为非语言人类数据设计的基础模型,基于wav2vec 2.0框架构建。
音频分类
Transformers
英语
V
alkiskoudounas
31
0
Distilhubert Finetuned Gtzan
Apache-2.0
基于DistilHuBERT架构在GTZAN音乐分类数据集上微调的音频分类模型,准确率达86%
音频分类
Transformers
D
f0ghedgeh0g
39
0
Distilhubert Finetuned Gtzan
Apache-2.0
该模型是基于ntu-spml/distilhubert在GTZAN音乐分类数据集上微调的音频分类模型,准确率达到85%。
音频分类
Transformers
D
Scher314
3
0
Wav2vec2 Base BirdSet XCL
wav2vec 2.0 是一个自监督学习框架,用于语音表示学习,能够从未标记的音频数据中学习语音特征。
音频分类
Transformers
W
DBD-research-group
177
0
Hubert Large Gender Auto
Apache-2.0
基于HuBERT大模型的性别分类器,准确率达98.61%
音频分类
Transformers
H
ittailup
13
0
Wav2vec2 Base Gender Classification
Apache-2.0
基于facebook/wav2vec2-base微调的语音性别分类模型,在评估集上准确率达98.92%
音频分类
Transformers
W
7wolf
14
1
Wav2vec2 Audio Emotion Classification
Apache-2.0
基于facebook/wav2vec2-base微调的音频情感分类模型,在评估集上准确率达73.98%
音频分类
Transformers
W
chin-may
77
5
Distilhubert Finetuned Gtzan
Apache-2.0
该模型是基于NTU-SPML的DistilHuBERT在GTZAN音乐分类数据集上微调的版本,主要用于音乐流派分类任务。
音频分类
Transformers
D
Terps
15
0
Wav2vec2 Large Robust 24 Ft Age Gender
该模型以原始音频信号作为输入,输出年龄预测值以及性别概率(儿童/女性/男性),同时输出最后一层transformer的池化状态。
音频分类
Transformers
W
audeering
44.13k
33
Wav2vec2 Large Robust 6 Ft Age Gender
该模型通过微调Wav2Vec2-Large-Robust,能够从原始音频中预测说话者的年龄和性别。
音频分类
Transformers
W
audeering
19.29k
2
Audiocourseu4 MusicClassification
Apache-2.0
基于distilhubert在GTZAN数据集上微调的音乐分类模型,准确率达88%
音频分类
Transformers
A
Imxxn
17
0
Distilhubert Finetuned Gtzan
Apache-2.0
基于distilhubert在GTZAN音乐分类数据集上微调的模型,用于音乐流派分类任务
音频分类
Transformers
D
artyomboyko
16
0
Distilhubert Finetuned Gtzan
Apache-2.0
该模型是基于DistilHuBERT架构,在GTZAN音乐分类数据集上微调的音频分类模型,主要用于音乐流派分类任务。
音频分类
Transformers
D
calvpang
15
0
Distilhubert Finetuned Distilhubert
该模型是基于DistilHuBERT在GTZAN音乐分类数据集上微调的版本,主要用于音乐流派分类任务。
音频分类
Transformers
D
JanLilan
14
0
Distilhubert Finetuned Gtzan
Apache-2.0
基于 DistilHuBERT 在 GTZAN 音乐分类数据集上微调的轻量级音频特征提取模型
音频分类
Transformers
D
mory91
48
0
Distilhubert Finetuned Gtzan
Apache-2.0
该模型是基于DistilHuBERT在GTZAN音乐分类数据集上微调的版本,主要用于音乐流派分类任务。
音频分类
Transformers
D
Maldopast
14
0
My Awesome Model
Apache-2.0
基于DistilHuBERT架构的音频分类模型,在GTZAN音乐流派分类数据集上微调,准确率达94.75%
音频分类
Transformers
M
AK-12
15
0
Distilhubert Finetuned Gtzan
Apache-2.0
基于DistilHuBERT架构在GTZAN音乐流派分类数据集上微调的音频分类模型
音频分类
Transformers
D
technaxx
20
0
Distilhubert Finetuned Gtzan
Apache-2.0
该模型是基于DistilHuBERT在GTZAN音乐分类数据集上微调的音频分类模型,准确率达到76.25%
音频分类
Transformers
D
pratik33
14
0
Distilhubert Finetuned Gtzan
Apache-2.0
该模型是基于DistilHuBERT在GTZAN音乐分类数据集上微调的版本,主要用于音乐流派分类任务。
音频分类
Transformers
D
arham061
15
0
Distilhubert Finetuned Gtzan V3 Finetuned Gtzan
Apache-2.0
该模型是基于DistilHuBERT架构在GTZAN音乐分类数据集上微调的版本,主要用于音乐流派分类任务。
音频分类
Transformers
D
J3
13
0
Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan
Bsd-3-clause
这是一个基于AST(Audio Spectrogram Transformer)架构的音频分类模型,在GTZAN音乐流派分类数据集上微调,准确率达到92%。
音频分类
Transformers
A
Bhanu9Prakash
50
0
Distilhubert Finetuned Gtzan
Apache-2.0
基于DistilHuBERT在GTZAN音乐分类数据集上微调的音频分类模型,准确率达85%
音频分类
Transformers
D
kfahn
15
0
Distilhubert Finetuned Ravdess
Apache-2.0
基于DistilHuBERT架构在RAVDESS语音情感数据集上微调的语音情感识别模型,准确率达92.36%
音频分类
Transformers
D
pollner
43
2
Audio Classification Model
Apache-2.0
基于facebook/wav2vec2-base-960h微调的音频分类模型,具体用途和训练数据未明确说明。
音频分类
Transformers
A
SinghManish
19
1
Distilhubert Finetuned Gtzan V2
Apache-2.0
该模型是基于DistilHuBERT在GTZAN音乐分类数据集上微调的版本,主要用于音乐流派分类任务。
音频分类
Transformers
D
MariaK
17
0
Speech Accent Classification
Apache-2.0
基于Wav2Vec2架构的语音识别基础模型,在960小时的英语语音数据上训练,适用于语音分类任务。
音频分类
Transformers
英语
S
dima806
40
4
Ast Bird Model
Bsd-3-clause
基于音频数据集对MIT/ast-finetuned-audioset-10-10-0.4593进行微调的音频分类模型
音频分类
Transformers
A
saadashraf
22
0
MERT V1 95M
MERT-v1-330M 是一个基于 MLM 范式训练的高级音乐理解模型,具有 330M 参数,支持 24K Hz 音频采样率和 75 Hz 特征率,适用于多种音乐信息检索任务。
音频分类
Transformers
M
m-a-p
83.72k
32
Wav2vec2 Base Finetuned Coscan Age Group
Apache-2.0
基于wav2vec2-base在coscan-speech数据集上微调的年龄组分类模型,验证集准确率达99.8%
音频分类
Transformers
W
versae
34
0
Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53
Apache-2.0
该模型是基于facebook/wav2vec2-large-xlsr-53在AI Light Dance数据集上微调的自动语音识别模型。
语音识别
Transformers
A
gary109
26
1
Ai Light Dance Chord Ft Wav2vec2 Large Xlsr 53
Apache-2.0
该模型是基于facebook/wav2vec2-large-xlsr-53在GARY109/AI_Light_Dance - ONSET-CHORD2数据集上微调的自动语音识别模型。
语音识别
Transformers
A
gary109
46
0
Wav2vec2 Base Sound2
Apache-2.0
基于facebook/wav2vec2-base微调的语音处理模型,在评估集上准确率达53.57%
音频分类
Transformers
W
learningdude
17
0