Whosper Large V2
Apache-2.0
Whosper-large-v2是一款专为塞内加尔主要语言沃洛夫语设计的尖端语音识别模型,基于OpenAI的Whisper-large-v2构建,显著提升了词错误率(WER)和字符错误率(CER)。
语音识别
支持多种语言
W
CAYTU
449
6
Whisper Hindi2Hinglish Swift
Apache-2.0
基于Whisper架构优化的印地语-印地英语混合语音识别模型,专为印度口音和噪声环境优化
语音识别
Transformers
支持多种语言
W
Oriserve
496
6
Viwhisper Medium
MIT
针对越南语语音识别任务优化的Whisper-medium模型,在1308小时越南语数据上微调
语音识别
Transformers
其他
V
NhutP
139
4
Parakeet Ctc 0.6b
Parakeet CTC 0.6B是由NVIDIA NeMo和Suno.ai联合开发的自动语音识别模型,基于FastConformer架构,拥有约6亿参数,支持英语语音转录。
语音识别
英语
P
nvidia
6,528
13
Parakeet Rnnt 0.6b
Parakeet RNNT 0.6B 是由 NVIDIA NeMo 和 Suno.ai 联合开发的自动语音识别模型,基于 FastConformer 架构,拥有约 6 亿参数,专门用于将英语语音转录为文本。
语音识别
英语
P
nvidia
92.27k
8
Parakeet Ctc 1.1b
Parakeet CTC 1.1B是由NVIDIA NeMo和Suno.ai联合开发的自动语音识别模型,基于FastConformer架构,拥有约11亿参数,支持英语语音转录。
语音识别
英语
P
nvidia
14.78k
29
Whisper Large V3 French
MIT
基于OpenAI Whisper-large-v3微调的法语自动语音识别模型,支持大小写、标点符号和数字预测
语音识别
Transformers
法语
W
bofenghuang
771
28
Asr Whisper Medium Commonvoice Ar
Apache-2.0
基于CommonVoice阿拉伯语数据集微调的Whisper medium语音识别模型,由SpeechBrain团队开发
语音识别
阿拉伯语
A
speechbrain
17
2
Stt En Fastconformer Transducer Xlarge
NVIDIA FastConformer-Transducer 是一个用于英语自动语音识别(ASR)的高性能模型,采用优化的FastConformer架构和Transducer解码器,参数规模约6.18亿。
语音识别
英语
S
nvidia
106
24
Stt En Fastconformer Ctc Xlarge
NVIDIA FastConformer-CTC XLarge是一个约6亿参数的自动语音识别(ASR)模型,专为英语语音转录设计,采用FastConformer架构和CTC损失训练。
语音识别
英语
S
nvidia
216
2
Whisper Small Cv11 French
Apache-2.0
基于openai/whisper-small微调的法语自动语音识别模型,训练数据为Common Voice 11.0法语数据集,支持大小写和标点符号预测。
语音识别
Transformers
法语
W
bofenghuang
266
4
Wav2vec2 Base Vi Vlsp2020
基于wav2vec2架构的越南语自动语音识别模型,预训练于13,000小时未标注YouTube音频,并在250小时标注数据上微调。
语音识别
Transformers
其他
W
nguyenvulebinh
262
3
Stt Es Conformer Transducer Large
这是一个用于西班牙语自动语音识别的大型康福默-传感器模型,约1.2亿参数,在1340小时西班牙语语音数据上训练。
语音识别
西班牙语
S
nvidia
708
4
Stt De Conformer Transducer Large
这是一个用于德语自动语音识别的大型Conformer-Transducer模型,具有约1.2亿参数,支持将德语语音转录为文本。
语音识别
德语
S
nvidia
66
6
Stt De Conformer Ctc Large
这是一个用于德语自动语音识别的大规模Conformer-CTC模型,由NVIDIA训练并在数千小时的德语语音数据上进行优化。
语音识别
德语
S
nvidia
132
4
Wav2vec2 Large Xlsr 53 Chinese Zn Cn Aishell1
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53在中文AISHELL-1数据集上微调的语音识别模型,支持中文语音识别任务。
语音识别
Transformers
中文
W
qinyue
22
6
Wav2vec2 Large Xlsr 53 German Cv9
Apache-2.0
这是一个基于Facebook的wav2vec2-large-xlsr-53模型在德语Common Voice 9.0数据集上微调的自动语音识别(ASR)模型。
语音识别
Transformers
德语
W
oliverguhr
98
1
Wav2vec2 Base Vietnamese 160h
基于Wav2vec2的越南语语音识别模型,在160小时越南语语音数据上微调
语音识别
Transformers
其他
W
khanhld
356
10
Wav2vec2 Base Da Ft Nst
Apache-2.0
基于NST数据集微调的丹麦语语音识别模型,支持16kHz采样率音频输入
语音识别
Transformers
其他
W
Alvenir
15
3
Wav2vec2 Base Cynthia Tedlium 2500 V2
Apache-2.0
该模型是基于facebook/wav2vec2-base-960h在TED-LIUM数据集上微调的语音识别模型,在评估集上达到20.33%的词错误率。
语音识别
Transformers
W
huyue012
25
0
Wav2vec2 Large Xlsr Open Brazilian Portuguese V2
Apache-2.0
这是一个针对巴西葡萄牙语优化的Wav2vec2模型,基于多个开放数据集训练,用于自动语音识别任务。
语音识别
Transformers
其他
W
lgris
1,825
18
Wav2vec2 Large Xlsr 53 Es
Apache-2.0
基于Facebook的wav2vec2-large-xlsr-53模型,在西班牙语Common Voice数据集上微调的语音识别模型,测试WER为10.50%。
语音识别
Transformers
西班牙语
W
pcuenq
147
0
Wav2vec2 Large Xlsr Sundanese
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53微调的巽他语语音识别模型,训练数据来自OpenSLR高质量TTS数据集
语音识别
其他
W
cahya
339
0
Bp500 Xlsr
Apache-2.0
这是一个针对巴西葡萄牙语微调的Wav2vec 2.0模型,使用了多个巴西葡萄牙语数据集进行训练,在Common Voice测试集上WER为13.6。
语音识别
Transformers
其他
B
lgris
21
1
Bp400 Xlsr
Apache-2.0
基于巴西葡萄牙语数据集微调的Wav2vec 2.0语音识别模型,支持巴西葡萄牙语自动语音识别任务。
语音识别
Transformers
其他
B
lgris
55
3
Bp500 Base100k Voxpopuli
Apache-2.0
针对巴西葡萄牙语优化的语音识别模型,使用7个公开数据集共453小时语音训练
语音识别
Transformers
其他
B
lgris
23
1
Wav2vec2 Large Xlsr Turkish
Apache-2.0
这是一个基于facebook/wav2vec2-large-xlsr-53模型在土耳其语Common Voice数据集上微调的自动语音识别模型,测试WER为21.13%。
语音识别
其他
W
cahya
61
2
Wav2vec2 Large Xlsr Open Brazilian Portuguese
Apache-2.0
这是一个针对巴西葡萄牙语微调的 Wav2vec 2.0 模型,使用了多个开放巴西葡萄牙语数据集进行训练,包括 Common Voice、MLS、CETUC 等。
语音识别
Transformers
其他
W
lgris
395
9
Asr Wav2vec2 Commonvoice Fr
Apache-2.0
基于CommonVoice法语数据集训练的wav2vec 2.0语音识别模型,使用CTC/Attention架构,无需语言模型
语音识别
法语
A
speechbrain
250
10
Wav2vec2 Live Japanese
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53微调的日语语音识别模型,支持平假名输出
语音识别
Transformers
日语
W
ttop324
20
4
Wav2vec2 Large Xlsr Eo
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型,使用Common Voice数据集对世界语进行微调的语音识别模型。
语音识别
其他
W
gchhablani
23
1
Wav2vec2 Large Xlsr 53 Esperanto
Apache-2.0
这是一个基于Facebook的wav2vec2-large-xlsr-53模型微调的世界语(Esperanto)语音识别模型,使用Common Voice数据集训练。
语音识别
其他
W
cpierse
8,681
6
Xls R Nl V1 Cv8 Lm
这是一个基于XLS-R架构的自动语音识别模型,专门针对荷兰语和佛兰芒语优化,结合了5-gram语言模型以提高识别准确率。
语音识别
Transformers
其他
X
FremyCompany
14
3
Galician Xlsr
Apache-2.0
该模型是基于facebook/wav2vec2-xls-r-300m在加利西亚语数据集上微调的自动语音识别模型,在Common Voice 8.0测试集上取得了11.31%的WER。
语音识别
Transformers
其他
G
Akashpb13
110
1