高精度音频分类

# 高精度音频分类

Wav2vec2 Vd Bird Sound Classification

基于wav2vec2-base训练的鸟类声音分类模型，可识别21种印度Vedanthangal鸟类保护区的鸟类物种

Transformers 英语

基于Wav2Vec2微调的音频分类器，能够区分真人语音和AI生成语音。

Transformers 英语

Wavlm Large Finetuned SER

基于WavLM-Large的语音情感识别模型，支持英文语音情感分类。

音频分类英语

Whisper Tiny De Emodb Emotion Classification

基于openai/whisper-tiny微调的德语情感分类模型，在Emo-DB数据集上达到91.59%准确率

Transformers 德语

Distilhubert Finetuned Cry Detector

基于distilhubert架构微调的哭声检测模型，在评估集上表现出色，准确率达98.83%

Deepfake Audio Detection

基于音频文件夹数据集微调的Deepfake音频检测模型，能够高效识别合成语音，评估准确率达99.64%

Deepfake Audio Detection

基于facebook/wav2vec2-base微调的深度伪造音频检测模型，在评估集上准确率达95.45%

Urdu Emotions Whisper Medium

基于Whisper-medium微调的乌尔都语情感识别模型，在评估集上准确率达91.67%

Pak-Speech-Processing

Wav2vec2 Large Xlsr 53 English Finetuned Ravdess

基于wav2vec2-large-xlsr-53-english模型在RAVDESS数据集上微调的语音情感识别模型

AST ASVspoof2019 Synthetic Voice Detection

该模型是基于MIT/ast-finetuned-audioset-10-10-0.4593微调的版本，用于检测合成语音。

Transformers 英语

Wav2vec2 Animal Sounds Finetuned Hubert Finetuned Animals

基于HuBERT架构微调的动物声音分类模型，可识别10类动物叫声，准确率达95%

Wav2vec2 Large Robust 6 Ft Age Gender Finetuned Gtzan

基于wav2vec2架构的音频分类模型，在privateSLI数据集上微调，用于年龄和性别识别任务

languageresearch

Ast Finetuned Speech Commands V2

基于Speech Commands v2数据集微调的音频频谱图变换器模型，用于音频分类任务，准确率达98.12%。

Trillsson3 Ft Keyword Spotting 14

基于TRillsson3架构的音频分类模型，在superb数据集上微调，用于关键词识别任务，准确率达91.5%。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24