Conformer架构
Asr Conformer Largescaleasr
Apache-2.0
这是一个基于SpeechBrain框架训练的端到端自动语音识别系统,使用Conformer架构在25,000小时英文语音数据上训练。
语音识别
英语
A
speechbrain
92
12
Indicconformer Stt Ur Hybrid Ctc Rnnt Large
MIT
IndicConformer 是一个基于混合 CTC-RNNT 架构的 Conformer 自动语音识别模型,专门用于乌尔都语语音转录。
语音识别
其他
I
ai4bharat
44
2
Indicconformer Stt Ne Hybrid Ctc Rnnt Large
MIT
IndicConformer是一个基于混合CTC-RNNT架构的Conformer自动语音识别模型,专门针对尼泊尔语优化
语音识别
其他
I
ai4bharat
36
2
Indicconformer Stt Hi Hybrid Ctc Rnnt Large
MIT
IndicConformer是一个基于混合CTC-RNNT架构的Conformer自动语音识别(ASR)模型,支持印地语语音转录。
语音识别
其他
I
ai4bharat
1,694
3
W2v Bert 2.0
MIT
基于Conformer架构的语音编码器,在450万小时无标注音频数据上预训练,支持143种以上语言
语音识别
Transformers
支持多种语言
W
facebook
477.05k
170
Fastspeech2 Conformer With Hifigan
Apache-2.0
整合FastSpeech2Conformer与HiFi-GAN的文本转语音模型,提供高效高质量的语音合成
语音合成
Transformers
英语
F
espnet
635
0
Fastspeech2 Conformer
Apache-2.0
FastSpeech2Conformer是一个非自回归的文本转语音(TTS)模型,结合了FastSpeech2和Conformer架构的优势,能够快速高效地从文本生成高质量的语音。
语音合成
Transformers
英语
F
espnet
2,440
6
Stt Zh Conformer Transducer Large
这是一个用于转录普通话语音的大型Conformer-Transducer模型,参数约1.2亿,在AISHELL-2数据集上训练。
语音识别
中文
S
nvidia
72
13
Stt Fr Conformer Ctc Large
这是一个基于Conformer架构的法语自动语音识别(ASR)大模型,采用CTC损失函数,在超过1500小时的法语语音数据上训练而成。
语音识别
法语
S
nvidia
361
6
Stt De Conformer Transducer Large
这是一个用于德语自动语音识别的大型Conformer-Transducer模型,具有约1.2亿参数,支持将德语语音转录为文本。
语音识别
德语
S
nvidia
66
6
Stt En Conformer Transducer Xlarge
这是一个由NVIDIA开发的自动语音识别(ASR)模型,基于Conformer-Transducer架构,拥有约6亿参数,专门用于英语语音转录。
语音识别
英语
S
nvidia
496
54
Stt Kr Conformer Transducer Large
这是一个基于Conformer-Transducer架构的大规模韩语自动语音识别模型,在Ksponspeech数据集上训练,适用于韩语语音转录任务。
语音识别
其他
S
eesungkim
129
9
Wav2vec2 Conformer Rope Large 100h Ft
Apache-2.0
基于Librispeech 100小时语音数据微调的Wav2Vec2 Conformer模型,采用旋转位置嵌入技术
语音识别
Transformers
英语
W
facebook
99
0
Wav2vec2 Conformer Rel Pos Large 100h Ft
Apache-2.0
采用相对位置嵌入技术的Wav2Vec2-Conformer大型语音识别模型,基于Librispeech 100小时语音数据微调
语音识别
Transformers
英语
W
facebook
99
0
Kan Bayashi Vctk Xvector Conformer Fastspeech2
基于ESPnet框架训练的文本转语音模型,使用VCTK数据集,支持多说话人语音合成
语音合成
英语
K
espnet
15
0
Simpleoier Librispeech Asr Train Asr Conformer7 Wavlm Large Raw En Bpe5000 Sp
基于ESPnet框架训练的自动语音识别(ASR)模型,使用Conformer架构和WavLM大型预训练模型,在LibriSpeech数据集上训练。
语音识别
英语
S
espnet
66
1
Kan Bayashi Ljspeech Joint Finetune Conformer Fastspeech2 Hifigan
这是一个基于 ESPnet2 的文本转语音(TTS)模型,使用 LJSpeech 数据集训练,结合了 Conformer、FastSpeech2 和 HiFi-GAN 架构。
语音合成
英语
K
espnet
20
16