音频处理

# 音频处理

Wav2vec Checkpoints

基于facebook/wav2vec2-base微调的语音处理模型，在评估集上准确率达99.48%

Zeyadd-Mostaffa

Distilhubert Finetuned Gtzan 5 Epochs Finetuned Gtzan Finetuned Gtzan

基于DistilHuBERT架构的音频分类模型，在GTZAN数据集上微调，用于音乐流派分类任务。

Deepfake Audio Detection

基于wav2vec2-base-finetuned进一步微调的语音处理模型，在评估集上准确率达98.82%

Wav2vec2 Base Finetuned

基于facebook/wav2vec2-base模型微调的语音处理模型，在评估集上准确率达99.97%

Wav2vec2 Base Finetuned

基于facebook/wav2vec2-base模型微调的语音处理模型，在评估集上达到99.97%的准确率

Distilhubert Finetuned Chorddetection

基于distilhubert模型微调的和弦检测模型，在ChordStimation数据集上训练，评估准确率达到100%

这是一个RVC（Retrieval-based Voice Conversion）模型，用于音频到音频的转换任务。

Vocoder Daft Punk RVC 200 Epochs

这是一个RVC（实时语音转换）模型，经过200轮训练，适用于语音转换任务。

Snoop是一个基于RVC（Retrieval-based Voice Conversion）技术的音频转音频模型，主要用于语音转换任务。

这是一个基于RVC（Retrieval-based Voice Conversion）的语音转换模型，可以将输入音频转换为特定风格的语音。

Drake_RVC 是一个基于 RVC (Retrieval-based Voice Conversion) 技术的音频转音频模型，专门用于语音转换任务。

这是一个基于RVC（Retrieval-based Voice Conversion）技术的语音转换模型，能够将输入的音频转换为特定风格的语音输出。

CJ RVC V2 400 Epochs

这是一个基于RVC（Retrieval-based Voice Conversion）技术的语音转换模型，经过400轮训练，适用于音频转音频任务。

这是一个基于RVC(Retrieval-based Voice Conversion)技术的语音转换模型，可以将输入音频转换为安德鲁·泰特风格的声音。

这是一个RVC（Retrieval-based Voice Conversion）模型，用于音频到音频的转换任务。

Audio Cls Unispeech Sat Base 100h Libri Ft Minds14 Finetune

基于microsoft/unispeech-sat-base-100h-libri-ft在minds14数据集上微调的语音分类模型

Wav2vec2 Base Finetuned Amd

该模型是基于facebook/wav2vec2-base在未知数据集上微调的版本，主要用于语音识别任务，在评估集上达到84.55%的准确率。

Whisper Small Ft Common Language Id

基于openai/whisper-small微调的通用语言识别模型，在评估集上准确率达88.6%

Wav2vec2 Base Finetuned Ie

基于facebook/wav2vec2-base模型微调的版本，用于特定任务

Wav2vec2 Base Finetuned Ks

基于facebook/wav2vec2-base模型微调的语音识别模型，在评估集上准确率达到87.27%。

Wav2vec2 Base Ft Cv3 V3

该模型是基于facebook/wav2vec2-base在Common Voice 3.0英语数据集上微调的语音识别模型，在测试集上取得了0.247的词错误率。

Wav2vec Trained

该模型是基于facebook/wav2vec2-base微调而成的语音识别模型，在评估集上取得了词错误率0.1042的表现。

Resepformer Wsj02mix

这是一个基于RE-SepFormer架构的音频源分离模型，由SpeechBrain实现并在WSJ0-2Mix数据集上训练。

声音分离英语

Ai Light Dance Singing Ft Wav2vec2 Large Xlsr 53

该模型是基于facebook/wav2vec2-large-xlsr-53在AI_LIGHT_DANCE - ONSET-SINGING数据集上微调的自动语音识别模型，主要用于歌唱语音识别任务。

Wav2vec2 Base Vios Commonvoice 1

该模型是基于facebook/wav2vec2-xls-r-300m在Common Voice数据集上微调的语音识别模型，支持自动语音识别任务。

Wav2vec2 Final 1 Lm 3

基于facebook/wav2vec2-base微调的语音识别模型，在评估集上词错误率为0.4499，使用4-Gram语言模型时可降至0.126

基于facebook/wav2vec2-base微调的语音识别模型，支持自动语音转文本任务。

基于facebook/wav2vec2-base微调的语音识别模型，支持自动语音转文本任务

基于facebook/wav2vec2-base微调的语音识别模型，在评估集上词错误率(WER)为1.0

基于facebook/wav2vec2-base微调的语音识别模型，主要用于自动语音识别(ASR)任务

该模型是基于facebook/wav2vec2-base微调的语音识别模型，主要用于自动语音识别任务。

基于facebook/wav2vec2-base微调的语音识别模型，词错误率(WER)为1.0

Wav2vec2 Base Demo Colab

基于facebook/wav2vec2-base模型微调的语音识别模型，在评估集上取得了31.42%的词错误率

20220517 150219

该模型是基于facebook/wav2vec2-xls-r-300m微调的语音识别模型，支持自动语音识别(ASR)任务。

Wav2vec2 Base Timit Demo Colab9

该模型是基于facebook/wav2vec2-base在TIMIT数据集上微调的语音识别模型，主要用于英语语音转文本任务。

Wav2vec2 Base Toy Train Data Augmented

基于facebook/wav2vec2-base模型微调的语音识别模型，在增强训练数据上进行了优化。

Wav2vec2 Base Cv

基于facebook/wav2vec2-base在common_voice数据集上微调的语音识别模型

Wav2vec2 Base 1

基于facebook/wav2vec2-base在common_voice数据集上微调的语音识别模型

Wav2vec2 Base Lj Demo Colab

基于facebook/wav2vec2-base模型微调的语音识别模型，适用于英语语音转文本任务。

mohamed-illiyas

Wav2vec2 Base Demo Colab

基于facebook/wav2vec2-base微调的语音识别模型，在特定数据集上训练，词错误率(WER)为0.3391。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24