16kHz采样率
Vits Icelandic Rosa Female Monospeaker
这是一个基于facebook/mms-tts-isl微调的冰岛语文本转语音模型,使用Talrómur数据集训练,专注于女性声音合成。
语音合成
Transformers
其他
V
Sigurdur
22
0
Whisper Medium Cv11 German Ct2
Apache-2.0
基于OpenAI的whisper-medium模型在Common Voice 11.0德语数据集上微调的自动语音识别模型
语音识别
Transformers
德语
W
mkenfenheuer
21
1
Whisper Medium Medical De AUT
基于Whisper Medium架构微调的德语医疗领域语音识别模型,特别针对奥地利标准德语发音优化
语音识别
Transformers
德语
W
valhofec
20
2
Vits Eng
MIT
基于VITS架构的英文文本转语音模型,由Kakao Enterprise训练,支持高质量语音合成
语音合成
Transformers
英语
V
BricksDisplay
28
4
Whisper Small Japanese
Apache-2.0
该模型是基于openai/whisper-small微调的日语语音识别模型,支持日语语音转文本任务。
语音识别
Transformers
日语
W
Ivydata
356
5
Whisper Base Japanese
Apache-2.0
本模型使用Common Voice、JVS和JSUT数据集对openai/whisper-base进行日语微调,适用于日语语音识别任务。
语音识别
Transformers
日语
W
Ivydata
137
3
Wav2vec2 Large Xlsr 53 Japanese
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53微调的日语语音识别模型,支持16kHz采样率音频输入
语音识别
Transformers
日语
W
Ivydata
19
4
Whisper Large V2 Cv11 German
Apache-2.0
基于openai/whisper-large-v2在Common Voice 11.0德语数据集上微调的自动语音识别模型,支持德语语音转文字,词错误率5.76
语音识别
Transformers
德语
W
bofenghuang
179
16
Exp W2v2t It No Pretraining S842
Apache-2.0
基于随机初始化的wav2vec2模型进行微调,用于意大利语语音识别任务,训练数据采用Common Voice 7.0(意大利语)的训练集分割部分。
语音识别
Transformers
其他
E
jonatasgrosman
18
0
Wav2vec2 Large Chinese Zh Cn
Apache-2.0
基于XLSR-53大模型微调的中文语音识别模型,支持16kHz采样率的语音输入
语音识别
Transformers
中文
W
wbbbbb
585
40
Exp W2v2t Zh Cn Wavlm S596
Apache-2.0
基于microsoft/wavlm-large模型微调的中文语音识别模型,支持简体中文,使用Common Voice 7.0 (zh-CN)数据集训练。
语音识别
Transformers
E
jonatasgrosman
22
1
Exp W2v2t Fa Hubert S801
Apache-2.0
基于facebook/hubert-large-ll60k模型微调的波斯语自动语音识别模型,使用Common Voice 7.0波斯语数据集训练。
语音识别
Transformers
其他
E
jonatasgrosman
16
0
Exp W2v2t Sv Se Vp Nl S842
Apache-2.0
这是一个基于facebook/wav2vec2-large-nl-voxpopuli模型微调的瑞典语自动语音识别模型,使用Common Voice 7.0 (sv-SE)数据集进行训练。
语音识别
Transformers
E
jonatasgrosman
16
0
Exp W2v2t Sv Se Wavlm S42
Apache-2.0
基于microsoft/wavlm-large微调的瑞典语自动语音识别模型,适用于16kHz采样率的语音输入。
语音识别
Transformers
E
jonatasgrosman
20
0
Exp W2v2t Fr Xls R S250
Apache-2.0
基于facebook/wav2vec2-xls-r-300m模型,使用Common Voice 7.0法语数据集微调的自动语音识别模型
语音识别
Transformers
法语
E
jonatasgrosman
20
0
Exp W2v2t Fr Vp Fr S438
Apache-2.0
基于facebook/wav2vec2-large-fr-voxpopuli模型微调的法语自动语音识别模型,使用Common Voice 7.0法语数据集训练。
语音识别
Transformers
法语
E
jonatasgrosman
20
0
Exp W2v2t Fr Unispeech S42
Apache-2.0
基于microsoft/unispeech-large-1500h-cv模型,使用Common Voice 7.0(法语)数据集微调的语音识别模型
语音识别
Transformers
法语
E
jonatasgrosman
20
0
Exp W2v2t It Xlsr 53 S387
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型微调的意大利语自动语音识别模型,使用Common Voice 7.0意大利语数据集训练。
语音识别
Transformers
其他
E
jonatasgrosman
18
0
Exp W2v2t It Vp 100k S449
Apache-2.0
基于facebook/wav2vec2-large-100k-voxpopuli模型微调的意大利语自动语音识别模型,使用Common Voice 7.0意大利语数据集训练。
语音识别
Transformers
其他
E
jonatasgrosman
17
0
Exp W2v2t It Wav2vec2 S609
Apache-2.0
基于facebook/wav2vec2-large-lv60模型微调的意大利语自动语音识别模型,使用Common Voice 7.0意大利语数据集训练。
语音识别
Transformers
其他
E
jonatasgrosman
18
0
Exp W2v2t Ja Vp It S544
Apache-2.0
基于facebook/wav2vec2-large-it-voxpopuli模型,使用Common Voice 7.0 (日语版)的训练集进行语音识别微调的日语自动语音识别模型。
语音识别
Transformers
日语
E
jonatasgrosman
18
0
Exp W2v2t Ja Unispeech Sat S884
Apache-2.0
基于microsoft/unispeech-sat-large模型微调的日语自动语音识别模型,使用Common Voice 7.0日语数据集训练。
语音识别
Transformers
日语
E
jonatasgrosman
19
0
Exp W2v2t Ja Wavlm S729
Apache-2.0
基于microsoft/wavlm-large模型微调的日语自动语音识别模型,使用Common Voice 7.0日语数据集训练
语音识别
Transformers
日语
E
jonatasgrosman
15
2
Exp W2v2t Ja Unispeech S569
Apache-2.0
基于microsoft/unispeech-large-1500h-cv模型,使用Common Voice 7.0 (日语)数据集进行语音识别微调的日语自动语音识别模型
语音识别
Transformers
日语
E
jonatasgrosman
14
0
Exp W2v2t Ja Xlsr 53 S109
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型微调的日语自动语音识别模型,使用Common Voice 7.0日语数据集训练
语音识别
Transformers
日语
E
jonatasgrosman
20
0
Exp W2v2t Th Hubert S533
Apache-2.0
基于facebook/hubert-large-ll60k微调的泰语语音识别模型,训练数据来自Common Voice 7.0
语音识别
Transformers
其他
E
jonatasgrosman
19
0
Exp W2v2t Th Wav2vec2 S664
Apache-2.0
基于facebook/wav2vec2-large-lv60模型微调的泰语语音识别模型,使用Common Voice 7.0数据集训练
语音识别
Transformers
其他
E
jonatasgrosman
14
0
Exp W2v2t En Unispeech Sat S459
Apache-2.0
基于微软UniSpeech-SAT-Large模型微调的英语语音识别模型,支持16kHz采样率的语音输入。
语音识别
Transformers
英语
E
jonatasgrosman
22
0
Exp W2v2t En Vp Nl S281
Apache-2.0
基于facebook/wav2vec2-large-nl-voxpopuli模型微调的英语语音识别模型,使用Common Voice 7.0训练集进行训练。
语音识别
Transformers
英语
E
jonatasgrosman
18
0
Exp W2v2t En No Pretraining S289
Apache-2.0
这是一个针对英语语音识别任务的模型,基于随机初始化的wav2vec2架构,使用Common Voice 7.0数据集进行微调。
语音识别
Transformers
英语
E
jonatasgrosman
18
0
Wav2vec2 Large Tedlium
Apache-2.0
基于TEDLIUM语料库微调的Wav2Vec2大型语音识别模型,支持英语语音转文本
语音识别
英语
W
sanchit-gandhi
58
1
Sharif Wav2vec2
MIT
Sharif Wav2vec2针对波斯语的微调版本,基于Common Voice波斯语样本训练,支持自动语音识别任务。
语音识别
Transformers
其他
S
SLPL
88
16
Wav2vec2 Large Xlsr 53 Chinese Zn Cn Aishell1
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53在中文AISHELL-1数据集上微调的语音识别模型,支持中文语音识别任务。
语音识别
Transformers
中文
W
qinyue
22
6
Data2vec Audio Large 960h
Apache-2.0
Data2Vec是一个通用自监督学习框架,适用于语音、视觉和语言任务。
语音识别
Transformers
英语
D
facebook
2,531
7
Wav2vec2 Base Da Ft Nst
Apache-2.0
基于NST数据集微调的丹麦语语音识别模型,支持16kHz采样率音频输入
语音识别
Transformers
其他
W
Alvenir
15
3
W2v Hf Jsut Xlsr53
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型,使用Common Voice和JSUT数据集对日语进行了微调的自动语音识别模型。
语音识别
Transformers
日语
W
qqpann
16
1
Wav2vec2 Large Xlsr 53 Spanish
Apache-2.0
这是一个基于facebook/wav2vec2-large-xlsr-53模型在西班牙语Common Voice数据集上微调的自动语音识别(ASR)模型。
语音识别
西班牙语
W
mrm8488
38
2
Wav2vec2 Large Xlsr 53 German
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53在Common Voice德语数据集上微调的自动语音识别模型,测试WER为15.80%。
语音识别
德语
W
marcel
25
1
Wav2vec2 Large Xlsr 53 Frisian
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型,使用Common Voice数据集对弗里斯兰语进行微调的自动语音识别模型。
语音识别
W
crang
22
0
Wav2vec2 Large Xlsr 53 Mongolian
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型,使用Common Voice数据集对蒙古语进行微调的自动语音识别模型。
语音识别
其他
W
anton-l
46
0