wav2vec2微调

# wav2vec2微调

Deepfake Audio Detection V1

基于wav2vec2-base微调的深度伪造音频检测模型，准确率达99.66%

Zeyadd-Mostaffa

Wav2vec2 Base 100k Gtzan Music Genres Finetuned Wav2vec2 Ivan

基于wav2vec2架构的音乐流派分类模型，在GTZAN数据集上微调，准确率达98%

Wav2vec2 Large Xlsr 53 Serbian Smart Home Commands

基于wav2vec2的塞尔维亚语智能家居语音指令识别模型，可识别7种控制指令

音频分类其他

基于facebook/wav2vec2-base微调的噪声识别模型，准确率达93.89%

My Awesome Mind Model

基于facebook/wav2vec2-base在minds14数据集上微调的音频分类模型

Wav2vec2 Large Xlsr 53 Th Speech Emotion Recognition 3c

基于airesearch/wav2vec2-large-xlsr-53-th微调的泰语语音情感识别模型，支持愤怒、快乐、平静三种情感分类

Wav2vec2 Turkish Gender Classification

基于facebook/wav2vec2-base微调的土耳其语性别分类模型，在common_voice_17_0数据集上训练，测试集准确率达84.79%

W2v Speech Emotion Recognition

基于Wav2Vec2架构微调的英语语音情感识别模型，可识别六种情感状态

音频分类英语

Wav2vec2 ASV Deepfake Audio Detection

基于facebook/wav2vec2-base微调的深度伪造音频检测模型，用于识别合成或篡改的语音内容

说话人处理

Japanese Wav2vec2 Base Rs35kh

基于大规模日语自动语音识别语料库ReazonSpeech v2.0微调的wav2vec 2.0 Base模型，适用于日语自动语音识别任务。

Transformers 日语

reazon-research

Audio Emotion Detection

本模型是基于facebook/wav2vec2-large-xlsr-53微调而成的音频情感检测模型，可识别7种情感状态

Wav2vec2 Large Xls R 300m Amharic Demo Colab

基于facebook/wav2vec2-xls-r-300m在common_voice_16_1数据集上微调的阿姆哈拉语语音识别模型

Wav2vec2 Base ASVSpoof5 TUC N

基于wav2vec2-base微调的语音防伪检测模型，在评估集上达到88.89%准确率

Wav2vec2 Large Lv60 Phoneme Timit English Timit 4k

基于facebook/wav2vec2-large-lv60微调的英语音素识别模型，在TIMIT数据集上取得10.53%的音素错误率

Transformers 英语

Wav2vec2 Large Lv60 Phoneme Timit English Timit 4k 002

基于facebook/wav2vec2-large-lv60在TIMIT数据集上微调的英语音素识别模型，音素错误率10.53%

Transformers 英语

Speechbrain Emotion Recognition Openvino

该模型使用微调的wav2vec2（基础）架构，在IEMOCAP数据集上训练，用于语音情感识别任务。

音频分类英语

Wav2vec2 Base Korean

基于Facebook的wav2vec2-base模型微调而来，专门针对韩语语音识别进行了优化，能够将韩语语音准确地转录为文本。

Transformers 韩语

Wav2vec2 Large Xlrs Korean V5

该模型是基于facebook/wav2vec2-xls-r-300m在zeroth_korean数据集上微调的韩语自动语音识别模型，词错误率为0.2433。

Deepfake Audio Detection

基于facebook/wav2vec2-base微调的深度伪造音频检测模型，在评估集上准确率达95.45%

Wav2vec Base Crema Sentiment Analysis

基于facebook/wav2vec2-base微调的语音情感分析模型，在评估集上达到70.87%的准确率

Violence Detect 44

基于facebook/wav2vec2-base-960h微调的音频分类模型，用于检测暴力声音

Deeepfake Audio Recognition Ttoo

基于facebook/wav2vec2-base微调的深度伪造音频识别模型，在评估集上准确率达95.45%

Wav2vec2 Base Arabic Speech Emotion Recognition

基于facebook/wav2vec2-base微调的阿拉伯语语音情感识别模型，在评估集上取得了99.92%的准确率。

ahmmedasaad2772

Wav2vec2 Base Gender Classification

基于facebook/wav2vec2-base微调的语音性别分类模型，在评估集上准确率达98.92%

Wav2vec2 Large Xlsr 53 English Finetuned Ravdess

基于wav2vec2-large-xlsr-53-english模型在RAVDESS数据集上微调的语音情感识别模型

My Awesome Mind Model

基于facebook/wav2vec2-base微调的音频分类模型，在评估集上达到58.92%的准确率

Wav2vec2 Audio Emotion Classification

基于facebook/wav2vec2-base微调的音频情感分类模型，在评估集上准确率达73.98%

Wav2vec2 Base Music Speech Both Classification Finetuned Gtzan

基于wav2vec2架构的音频分类模型，在GTZAN数据集上微调，用于音乐和语音分类任务

Wav2vec2 Large Robust 24 Ft Age Gender

该模型以原始音频信号作为输入，输出年龄预测值以及性别概率（儿童/女性/男性），同时输出最后一层transformer的池化状态。

Wav2vec Fine Tuned Speech Command2

基于facebook/wav2vec2-base在speech_commands数据集上微调的语音识别模型，准确率达97.35%

Viet Tones Model

基于wav2vec2-base-vietnamese-250h微调的越南语声调识别模型，准确率59.72%

Asr Wav2vec2 Commonvoice 14 Zh CN

这是一个基于CommonVoice中文数据集训练的端到端自动语音识别系统，使用wav2vec2.0和CTC架构，支持中文语音识别。

语音识别中文

Asr Wav2vec2 Commonvoice 14 Es

这是一个基于CommonVoice西班牙语数据集训练的端到端自动语音识别系统，使用wav2vec 2.0预训练模型结合CTC解码器。

语音识别西班牙语

Wav2vec2 Base Finetuned Gtzan

该模型是基于facebook/wav2vec2-base在GTZAN数据集上微调的音频分类模型，主要用于音乐流派分类任务。

Wav2vec2 Base Down On

基于facebook/wav2vec2-base微调的二进制音频分类模型，专门用于区分'down'和'on'的发音

Wav2vec2 Base Music Speech Both Classification

基于facebook/wav2vec2-base微调的音频分类模型，用于区分音乐和语音

Wav2vec2 Nepali

基于Facebook的wav2vec2模型微调的尼泊尔语语音识别模型

Transformers 其他

anish-shilpakar

Neunit Nihaochangchu V3

基于facebook/wav2vec2-base微调的音频分类模型，在superb数据集上训练，准确率达99.99%

Bsc Ai Thesis Torgo Model 1

基于facebook/wav2vec2-base微调的语音处理模型，在评估集上表现出色

SER Wav2vec2 Large Xlsr 53 Eng Zho Adults

基于wav2vec2-large-xlsr-53微调的跨语言跨年龄组语音情感识别模型，支持英语和中文

Transformers 支持多种语言

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24