音频特征提取

# 音频特征提取

Voc2vec Hubert Ls Pt

voc2vec是专为非语言人类数据设计的基础模型，基于HuBERT框架构建，在125小时非语言音频数据上预训练。

Transformers 英语

voc2vec是一个专门为非语言人类数据设计的基础模型，基于wav2vec 2.0框架构建。

Transformers 英语

Distilhubert Finetuned Gtzan

基于DistilHuBERT架构在GTZAN音乐分类数据集上微调的音频分类模型，准确率达86%

Distilhubert Finetuned Gtzan

该模型是基于ntu-spml/distilhubert在GTZAN音乐分类数据集上微调的音频分类模型，准确率达到85%。

Wav2vec2 Base BirdSet XCL

wav2vec 2.0 是一个自监督学习框架，用于语音表示学习，能够从未标记的音频数据中学习语音特征。

DBD-research-group

Hubert Large Gender Auto

基于HuBERT大模型的性别分类器，准确率达98.61%

Wav2vec2 Base Gender Classification

基于facebook/wav2vec2-base微调的语音性别分类模型，在评估集上准确率达98.92%

Wav2vec2 Audio Emotion Classification

基于facebook/wav2vec2-base微调的音频情感分类模型，在评估集上准确率达73.98%

Distilhubert Finetuned Gtzan

该模型是基于NTU-SPML的DistilHuBERT在GTZAN音乐分类数据集上微调的版本，主要用于音乐流派分类任务。

Wav2vec2 Large Robust 24 Ft Age Gender

该模型以原始音频信号作为输入，输出年龄预测值以及性别概率（儿童/女性/男性），同时输出最后一层transformer的池化状态。

Wav2vec2 Large Robust 6 Ft Age Gender

该模型通过微调Wav2Vec2-Large-Robust，能够从原始音频中预测说话者的年龄和性别。

Audiocourseu4 MusicClassification

基于distilhubert在GTZAN数据集上微调的音乐分类模型，准确率达88%

Distilhubert Finetuned Gtzan

基于distilhubert在GTZAN音乐分类数据集上微调的模型，用于音乐流派分类任务

Distilhubert Finetuned Gtzan

该模型是基于DistilHuBERT架构，在GTZAN音乐分类数据集上微调的音频分类模型，主要用于音乐流派分类任务。

Distilhubert Finetuned Distilhubert

该模型是基于DistilHuBERT在GTZAN音乐分类数据集上微调的版本，主要用于音乐流派分类任务。

Distilhubert Finetuned Gtzan

基于 DistilHuBERT 在 GTZAN 音乐分类数据集上微调的轻量级音频特征提取模型

Distilhubert Finetuned Gtzan

该模型是基于DistilHuBERT在GTZAN音乐分类数据集上微调的版本，主要用于音乐流派分类任务。

My Awesome Model

基于DistilHuBERT架构的音频分类模型，在GTZAN音乐流派分类数据集上微调，准确率达94.75%

Distilhubert Finetuned Gtzan

基于DistilHuBERT架构在GTZAN音乐流派分类数据集上微调的音频分类模型

Distilhubert Finetuned Gtzan

该模型是基于DistilHuBERT在GTZAN音乐分类数据集上微调的音频分类模型，准确率达到76.25%

Distilhubert Finetuned Gtzan

该模型是基于DistilHuBERT在GTZAN音乐分类数据集上微调的版本，主要用于音乐流派分类任务。

Distilhubert Finetuned Gtzan V3 Finetuned Gtzan

该模型是基于DistilHuBERT架构在GTZAN音乐分类数据集上微调的版本，主要用于音乐流派分类任务。

Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan

这是一个基于AST(Audio Spectrogram Transformer)架构的音频分类模型，在GTZAN音乐流派分类数据集上微调，准确率达到92%。

Distilhubert Finetuned Gtzan

基于DistilHuBERT在GTZAN音乐分类数据集上微调的音频分类模型，准确率达85%

Distilhubert Finetuned Ravdess

基于DistilHuBERT架构在RAVDESS语音情感数据集上微调的语音情感识别模型，准确率达92.36%

Audio Classification Model

基于facebook/wav2vec2-base-960h微调的音频分类模型，具体用途和训练数据未明确说明。

Distilhubert Finetuned Gtzan V2

该模型是基于DistilHuBERT在GTZAN音乐分类数据集上微调的版本，主要用于音乐流派分类任务。

Speech Accent Classification

基于Wav2Vec2架构的语音识别基础模型，在960小时的英语语音数据上训练，适用于语音分类任务。

Transformers 英语

基于音频数据集对MIT/ast-finetuned-audioset-10-10-0.4593进行微调的音频分类模型

MERT-v1-330M 是一个基于 MLM 范式训练的高级音乐理解模型，具有 330M 参数，支持 24K Hz 音频采样率和 75 Hz 特征率，适用于多种音乐信息检索任务。

Wav2vec2 Base Finetuned Coscan Age Group

基于wav2vec2-base在coscan-speech数据集上微调的年龄组分类模型，验证集准确率达99.8%

Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53

该模型是基于facebook/wav2vec2-large-xlsr-53在AI Light Dance数据集上微调的自动语音识别模型。

Ai Light Dance Chord Ft Wav2vec2 Large Xlsr 53

该模型是基于facebook/wav2vec2-large-xlsr-53在GARY109/AI_Light_Dance - ONSET-CHORD2数据集上微调的自动语音识别模型。

Wav2vec2 Base Sound2

基于facebook/wav2vec2-base微调的语音处理模型，在评估集上准确率达53.57%

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24