Whosper Large V2
Apache-2.0
Whosper-large-v2是一款专为塞内加尔主要语言沃洛夫语设计的尖端语音识别模型,基于OpenAI的Whisper-large-v2构建,显著提升了词错误率(WER)和字符错误率(CER)。
语音识别
支持多种语言
W
CAYTU
449
6
Whisper Hindi2Hinglish Swift
Apache-2.0
基于Whisper架构优化的印地语-印地英语混合语音识别模型,专为印度口音和噪声环境优化
语音识别
Transformers

支持多种语言
W
Oriserve
496
6
Viwhisper Medium
MIT
针对越南语语音识别任务优化的Whisper-medium模型,在1308小时越南语数据上微调
语音识别
Transformers

其他
V
NhutP
139
4
Parakeet Ctc 0.6b
Parakeet CTC 0.6B是由NVIDIA NeMo和Suno.ai联合开发的自动语音识别模型,基于FastConformer架构,拥有约6亿参数,支持英语语音转录。
语音识别
英语
P
nvidia
6,528
13
Parakeet Rnnt 0.6b
Parakeet RNNT 0.6B 是由 NVIDIA NeMo 和 Suno.ai 联合开发的自动语音识别模型,基于 FastConformer 架构,拥有约 6 亿参数,专门用于将英语语音转录为文本。
语音识别
英语
P
nvidia
92.27k
8
Parakeet Ctc 1.1b
Parakeet CTC 1.1B是由NVIDIA NeMo和Suno.ai联合开发的自动语音识别模型,基于FastConformer架构,拥有约11亿参数,支持英语语音转录。
语音识别
英语
P
nvidia
14.78k
29
Whisper Large V3 French
MIT
基于OpenAI Whisper-large-v3微调的法语自动语音识别模型,支持大小写、标点符号和数字预测
语音识别
Transformers

法语
W
bofenghuang
771
28
Asr Whisper Medium Commonvoice Ar
Apache-2.0
基于CommonVoice阿拉伯语数据集微调的Whisper medium语音识别模型,由SpeechBrain团队开发
语音识别
阿拉伯语
A
speechbrain
17
2
Stt En Fastconformer Transducer Xlarge
NVIDIA FastConformer-Transducer 是一个用于英语自动语音识别(ASR)的高性能模型,采用优化的FastConformer架构和Transducer解码器,参数规模约6.18亿。
语音识别
英语
S
nvidia
106
24
Stt En Fastconformer Ctc Xlarge
NVIDIA FastConformer-CTC XLarge是一个约6亿参数的自动语音识别(ASR)模型,专为英语语音转录设计,采用FastConformer架构和CTC损失训练。
语音识别
英语
S
nvidia
216
2
Whisper Small Cv11 French
Apache-2.0
基于openai/whisper-small微调的法语自动语音识别模型,训练数据为Common Voice 11.0法语数据集,支持大小写和标点符号预测。
语音识别
Transformers

法语
W
bofenghuang
266
4
Wav2vec2 Base Vi Vlsp2020
基于wav2vec2架构的越南语自动语音识别模型,预训练于13,000小时未标注YouTube音频,并在250小时标注数据上微调。
语音识别
Transformers

其他
W
nguyenvulebinh
262
3
Stt Es Conformer Transducer Large
这是一个用于西班牙语自动语音识别的大型康福默-传感器模型,约1.2亿参数,在1340小时西班牙语语音数据上训练。
语音识别
西班牙语
S
nvidia
708
4
Stt De Conformer Transducer Large
这是一个用于德语自动语音识别的大型Conformer-Transducer模型,具有约1.2亿参数,支持将德语语音转录为文本。
语音识别
德语
S
nvidia
66
6
Stt De Conformer Ctc Large
这是一个用于德语自动语音识别的大规模Conformer-CTC模型,由NVIDIA训练并在数千小时的德语语音数据上进行优化。
语音识别
德语
S
nvidia
132
4
Wav2vec2 Large Xlsr 53 Chinese Zn Cn Aishell1
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53在中文AISHELL-1数据集上微调的语音识别模型,支持中文语音识别任务。
语音识别
Transformers

中文
W
qinyue
22
6
Wav2vec2 Large Xlsr 53 German Cv9
Apache-2.0
这是一个基于Facebook的wav2vec2-large-xlsr-53模型在德语Common Voice 9.0数据集上微调的自动语音识别(ASR)模型。
语音识别
Transformers

德语
W
oliverguhr
98
1
Wav2vec2 Base Vietnamese 160h
基于Wav2vec2的越南语语音识别模型,在160小时越南语语音数据上微调
语音识别
Transformers

其他
W
khanhld
356
10
Wav2vec2 Base Da Ft Nst
Apache-2.0
基于NST数据集微调的丹麦语语音识别模型,支持16kHz采样率音频输入
语音识别
Transformers

其他
W
Alvenir
15
3
Wav2vec2 Base Cynthia Tedlium 2500 V2
Apache-2.0
该模型是基于facebook/wav2vec2-base-960h在TED-LIUM数据集上微调的语音识别模型,在评估集上达到20.33%的词错误率。
语音识别
Transformers

W
huyue012
25
0
Wav2vec2 Large Xlsr Open Brazilian Portuguese V2
Apache-2.0
这是一个针对巴西葡萄牙语优化的Wav2vec2模型,基于多个开放数据集训练,用于自动语音识别任务。
语音识别
Transformers

其他
W
lgris
1,825
18
Wav2vec2 Large Xlsr 53 Es
Apache-2.0
基于Facebook的wav2vec2-large-xlsr-53模型,在西班牙语Common Voice数据集上微调的语音识别模型,测试WER为10.50%。
语音识别
Transformers

西班牙语
W
pcuenq
147
0
Wav2vec2 Large Xlsr Sundanese
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53微调的巽他语语音识别模型,训练数据来自OpenSLR高质量TTS数据集
语音识别
其他
W
cahya
339
0
Bp500 Xlsr
Apache-2.0
这是一个针对巴西葡萄牙语微调的Wav2vec 2.0模型,使用了多个巴西葡萄牙语数据集进行训练,在Common Voice测试集上WER为13.6。
语音识别
Transformers

其他
B
lgris
21
1
Bp400 Xlsr
Apache-2.0
基于巴西葡萄牙语数据集微调的Wav2vec 2.0语音识别模型,支持巴西葡萄牙语自动语音识别任务。
语音识别
Transformers

其他
B
lgris
55
3
Bp500 Base100k Voxpopuli
Apache-2.0
针对巴西葡萄牙语优化的语音识别模型,使用7个公开数据集共453小时语音训练
语音识别
Transformers

其他
B
lgris
23
1
Wav2vec2 Large Xlsr Turkish
Apache-2.0
这是一个基于facebook/wav2vec2-large-xlsr-53模型在土耳其语Common Voice数据集上微调的自动语音识别模型,测试WER为21.13%。
语音识别
其他
W
cahya
61
2
Wav2vec2 Large Xlsr Open Brazilian Portuguese
Apache-2.0
这是一个针对巴西葡萄牙语微调的 Wav2vec 2.0 模型,使用了多个开放巴西葡萄牙语数据集进行训练,包括 Common Voice、MLS、CETUC 等。
语音识别
Transformers

其他
W
lgris
395
9
Asr Wav2vec2 Commonvoice Fr
Apache-2.0
基于CommonVoice法语数据集训练的wav2vec 2.0语音识别模型,使用CTC/Attention架构,无需语言模型
语音识别
法语
A
speechbrain
250
10
Wav2vec2 Live Japanese
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53微调的日语语音识别模型,支持平假名输出
语音识别
Transformers

日语
W
ttop324
20
4
Wav2vec2 Large Xlsr Eo
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型,使用Common Voice数据集对世界语进行微调的语音识别模型。
语音识别
其他
W
gchhablani
23
1
Wav2vec2 Large Xlsr 53 Esperanto
Apache-2.0
这是一个基于Facebook的wav2vec2-large-xlsr-53模型微调的世界语(Esperanto)语音识别模型,使用Common Voice数据集训练。
语音识别
其他
W
cpierse
8,681
6
Xls R Nl V1 Cv8 Lm
这是一个基于XLS-R架构的自动语音识别模型,专门针对荷兰语和佛兰芒语优化,结合了5-gram语言模型以提高识别准确率。
语音识别
Transformers

其他
X
FremyCompany
14
3
Galician Xlsr
Apache-2.0
该模型是基于facebook/wav2vec2-xls-r-300m在加利西亚语数据集上微调的自动语音识别模型,在Common Voice 8.0测试集上取得了11.31%的WER。
语音识别
Transformers

其他
G
Akashpb13
110
1
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文