低WER

# 低WER

Whosper Large V2

Whosper-large-v2是一款专为塞内加尔主要语言沃洛夫语设计的尖端语音识别模型，基于OpenAI的Whisper-large-v2构建，显著提升了词错误率（WER）和字符错误率（CER）。

语音识别支持多种语言

Whisper Hindi2Hinglish Swift

基于Whisper架构优化的印地语-印地英语混合语音识别模型，专为印度口音和噪声环境优化

Transformers 支持多种语言

Viwhisper Medium

针对越南语语音识别任务优化的Whisper-medium模型，在1308小时越南语数据上微调

Transformers 其他

Parakeet Ctc 0.6b

Parakeet CTC 0.6B是由NVIDIA NeMo和Suno.ai联合开发的自动语音识别模型，基于FastConformer架构，拥有约6亿参数，支持英语语音转录。

语音识别英语

Parakeet Rnnt 0.6b

Parakeet RNNT 0.6B 是由 NVIDIA NeMo 和 Suno.ai 联合开发的自动语音识别模型，基于 FastConformer 架构，拥有约 6 亿参数，专门用于将英语语音转录为文本。

语音识别英语

Parakeet Ctc 1.1b

Parakeet CTC 1.1B是由NVIDIA NeMo和Suno.ai联合开发的自动语音识别模型，基于FastConformer架构，拥有约11亿参数，支持英语语音转录。

语音识别英语

Whisper Large V3 French

基于OpenAI Whisper-large-v3微调的法语自动语音识别模型，支持大小写、标点符号和数字预测

Transformers 法语

Asr Whisper Medium Commonvoice Ar

基于CommonVoice阿拉伯语数据集微调的Whisper medium语音识别模型，由SpeechBrain团队开发

语音识别阿拉伯语

Stt En Fastconformer Transducer Xlarge

NVIDIA FastConformer-Transducer 是一个用于英语自动语音识别(ASR)的高性能模型，采用优化的FastConformer架构和Transducer解码器，参数规模约6.18亿。

语音识别英语

Stt En Fastconformer Ctc Xlarge

NVIDIA FastConformer-CTC XLarge是一个约6亿参数的自动语音识别(ASR)模型，专为英语语音转录设计，采用FastConformer架构和CTC损失训练。

语音识别英语

Whisper Small Cv11 French

基于openai/whisper-small微调的法语自动语音识别模型，训练数据为Common Voice 11.0法语数据集，支持大小写和标点符号预测。

Transformers 法语

Wav2vec2 Base Vi Vlsp2020

基于wav2vec2架构的越南语自动语音识别模型，预训练于13,000小时未标注YouTube音频，并在250小时标注数据上微调。

Transformers 其他

Stt Rw Conformer Transducer Large

这是一个用于卢旺达语语音识别的Conformer-Transducer大型模型，能将语音转录为小写拉丁字母，支持空格和撇号。

语音识别其他

Stt Es Conformer Transducer Large

这是一个用于西班牙语自动语音识别的大型康福默-传感器模型，约1.2亿参数，在1340小时西班牙语语音数据上训练。

语音识别西班牙语

Stt De Conformer Transducer Large

这是一个用于德语自动语音识别的大型Conformer-Transducer模型，具有约1.2亿参数，支持将德语语音转录为文本。

语音识别德语

Stt De Conformer Ctc Large

这是一个用于德语自动语音识别的大规模Conformer-CTC模型，由NVIDIA训练并在数千小时的德语语音数据上进行优化。

语音识别德语

Wav2vec2 Large Xlsr 53 Chinese Zn Cn Aishell1

基于facebook/wav2vec2-large-xlsr-53在中文AISHELL-1数据集上微调的语音识别模型，支持中文语音识别任务。

Transformers 中文

Wav2vec2 Large Xlsr 53 German Cv9

这是一个基于Facebook的wav2vec2-large-xlsr-53模型在德语Common Voice 9.0数据集上微调的自动语音识别(ASR)模型。

Transformers 德语

Wav2vec2 Base Vietnamese 160h

基于Wav2vec2的越南语语音识别模型，在160小时越南语语音数据上微调

Transformers 其他

Wav2vec2 Base Da Ft Nst

基于NST数据集微调的丹麦语语音识别模型，支持16kHz采样率音频输入

Transformers 其他

Wav2vec2 Large Xlsr Open Brazilian Portuguese V2

这是一个针对巴西葡萄牙语优化的Wav2vec2模型，基于多个开放数据集训练，用于自动语音识别任务。

Transformers 其他

Wav2vec2 Base Cynthia Tedlium 2500 V2

该模型是基于facebook/wav2vec2-base-960h在TED-LIUM数据集上微调的语音识别模型，在评估集上达到20.33%的词错误率。

Wav2vec2 Large Xlsr 53 Es

基于Facebook的wav2vec2-large-xlsr-53模型，在西班牙语Common Voice数据集上微调的语音识别模型，测试WER为10.50%。

Transformers 西班牙语

Wav2vec2 Large Xlsr Sundanese

基于facebook/wav2vec2-large-xlsr-53微调的巽他语语音识别模型，训练数据来自OpenSLR高质量TTS数据集

语音识别其他

基于巴西葡萄牙语数据集微调的Wav2vec 2.0语音识别模型，支持巴西葡萄牙语自动语音识别任务。

Transformers 其他

这是一个针对巴西葡萄牙语微调的Wav2vec 2.0模型，使用了多个巴西葡萄牙语数据集进行训练，在Common Voice测试集上WER为13.6。

Transformers 其他

Asr Wav2vec2 Commonvoice Fr

基于CommonVoice法语数据集训练的wav2vec 2.0语音识别模型，使用CTC/Attention架构，无需语言模型

语音识别法语

Wav2vec2 Large Xlsr Open Brazilian Portuguese

这是一个针对巴西葡萄牙语微调的 Wav2vec 2.0 模型，使用了多个开放巴西葡萄牙语数据集进行训练，包括 Common Voice、MLS、CETUC 等。

Transformers 其他

Wav2vec2 Large Xlsr Turkish

这是一个基于facebook/wav2vec2-large-xlsr-53模型在土耳其语Common Voice数据集上微调的自动语音识别模型，测试WER为21.13%。

语音识别其他

Bp500 Base100k Voxpopuli

针对巴西葡萄牙语优化的语音识别模型，使用7个公开数据集共453小时语音训练

Transformers 其他

Wav2vec2 Large Xlsr 53 Esperanto

这是一个基于Facebook的wav2vec2-large-xlsr-53模型微调的世界语(Esperanto)语音识别模型，使用Common Voice数据集训练。

语音识别其他

Wav2vec2 Large Xlsr Eo

基于facebook/wav2vec2-large-xlsr-53模型，使用Common Voice数据集对世界语进行微调的语音识别模型。

语音识别其他

Wav2vec2 Live Japanese

基于facebook/wav2vec2-large-xlsr-53微调的日语语音识别模型，支持平假名输出

Transformers 日语

Xls R Nl V1 Cv8 Lm

这是一个基于XLS-R架构的自动语音识别模型，专门针对荷兰语和佛兰芒语优化，结合了5-gram语言模型以提高识别准确率。

Transformers 其他

该模型是基于facebook/wav2vec2-xls-r-300m在加利西亚语数据集上微调的自动语音识别模型，在Common Voice 8.0测试集上取得了11.31%的WER。

Transformers 其他

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24