低CER优化
Wav2vec2 Base Japanese Asr
Apache-2.0
基于rinna/japanese-wav2vec2-base在common_voice_11_0日语数据集上微调的语音识别模型,仅支持平假名输出
语音识别
Transformers
日语
W
TKU410410103
68
3
Wav2vec2 Large Chinese Zh Cn
Apache-2.0
基于XLSR-53大模型微调的中文语音识别模型,支持16kHz采样率的语音输入
语音识别
Transformers
中文
W
wbbbbb
585
40
Wav2vec2 Large Ru Golos
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53微调的俄语语音识别模型,使用Sberdevices Golos数据集训练,支持16kHz音频输入
语音识别
Transformers
其他
W
bond005
1,182
12
Wav2vec2 Xls R 300m Japanese
Apache-2.0
这是一个基于facebook/wav2vec2-xls-r-300m微调的日语自动语音识别模型,专门用于将日语音频转录为平假名文本。
语音识别
Transformers
日语
W
vitouphy
29
0
W2v Hf Jsut Xlsr53
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型,使用Common Voice和JSUT数据集对日语进行了微调的自动语音识别模型。
语音识别
Transformers
日语
W
qqpann
16
1
Wav2vec2 Xls R 300m Korean
Apache-2.0
基于XLS-R架构的韩语自动语音识别模型,在Zeroth Korean数据集上微调
语音识别
Transformers
韩语
W
w11wo
152
6
Wav2vec2 Large Xlsr Japanese
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53在日语上的微调模型,支持日语语音识别任务。
语音识别
Transformers
日语
W
vumichien
214
5
Wav2vec2 Xls R 300m Korean Lm
Apache-2.0
基于XLS-R架构的韩语自动语音识别模型,在Zeroth韩语数据集上微调并添加5-gram语言模型
语音识别
Transformers
韩语
W
w11wo
23
1
Wav2vec2 Large Xlsr 53 Chinese Zh Cn
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型微调的中文语音识别模型,支持16kHz采样率的语音输入。
语音识别
中文
W
jonatasgrosman
3.8M
110
Wav2vec2 Xls R 300m Zh HK Lm V2
Apache-2.0
基于XLS-R架构的自动语音识别模型,针对粤语(zh-HK)优化,在Common Voice数据集上微调并加入5-gram语言模型。
语音识别
Transformers
W
w11wo
25
0
Wav2vec2 Large Xlsr 53 Tw Gpt
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53在台湾普通话(zh-tw)上微调的语音识别模型,支持16kHz采样率语音输入
语音识别
Transformers
W
voidful
47
3
Wav2vec2 Large Xlsr 53 Finnish
Apache-2.0
基于XLSR-53大模型微调的芬兰语语音识别模型,支持16kHz音频输入
语音识别
其他
W
jonatasgrosman
73.11k
1
Wav2vec2 Xls R 300m German De
Apache-2.0
该模型是基于facebook/wav2vec2-xls-r-300m在MOZILLA-FOUNDATION/COMMON_VOICE_7_0 - DE数据集上微调的德语自动语音识别模型。
语音识别
Transformers
德语
W
AndrewMcDowell
72
3
Wav2vec2 Xls R 300m Japanese
Apache-2.0
这是一个基于facebook/wav2vec2-xls-r-300m在日语Common Voice 8.0数据集上微调的自动语音识别(ASR)模型,支持日语语音转文字功能。
语音识别
Transformers
日语
W
AndrewMcDowell
24
0
Wav2vec2 Large Japanese
基于facebook/wav2vec2-large-xlsr-53模型微调的日语语音识别模型,支持16kHz采样率输入
语音识别
日语
W
NTQAI
316
7