多语言语音处理
Phi 4 Multimodal Instruct
MIT
Phi-4-multimodal-instruct是一个轻量级开源多模态基础模型,支持文本、图像和音频输入,生成文本输出,具备128K标记的上下文长度。
多模态融合
Transformers
支持多种语言
P
mjtechguy
18
0
Whisper Uz
Apache-2.0
基于Whisper Base微调的乌兹别克语语音识别模型,在Common Voice数据集上训练
语音识别
Transformers
其他
W
jamshidahmadov
1,179
3
Wav2vec2 Large Xlsr 53 Tr Fine Tuning Deprecated
Apache-2.0
该模型是基于facebook/wav2vec2-large-xlsr-53在common_voice土耳其语数据集上微调的语音识别模型
语音识别
Transformers
W
bekirbakar
17
0
English Filipino Wav2vec2 L Xls R Test 07
Apache-2.0
该模型是基于jonatasgrosman/wav2vec2-large-xlsr-53-english在菲律宾语音数据集上微调的版本,主要用于英语到菲律宾语的语音识别任务。
语音识别
Transformers
E
Khalsuu
24
0
Wav2vec2 Xlsr Nepali
Apache-2.0
该模型是基于facebook/wav2vec2-large-xlsr-53在尼泊尔语数据集上微调的语音识别模型。
语音识别
W
shishirAI
22
2
Wav2vec2 Large Xls R 300m Irish Colab Test
Apache-2.0
这是一个基于facebook/wav2vec2-xls-r-300m模型在common_voice爱尔兰语数据集上微调的语音识别模型,主要用于爱尔兰语的自动语音识别任务。
语音识别
Transformers
W
jfealko
24
0
Xls R Et V 3
Apache-2.0
该模型是基于facebook/wav2vec2-xls-r-1b在爱沙尼亚语数据集上微调的自动语音识别模型
语音识别
Transformers
其他
X
vasilis
41
0
Wav2vec2 Large Xlsr Slovene
Apache-2.0
这是一个基于Facebook的wav2vec2-large-xlsr-53模型进行微调的斯洛文尼亚语语音识别模型,使用Common Voice数据集训练。
语音识别
其他
W
mrshu
23
2
Wav2vec2 Large Xlsr Rm Sursilv
Apache-2.0
这是一个基于facebook/wav2vec2-large-xlsr-53模型微调的自动语音识别模型,专门用于识别罗曼什语的苏塞尔瓦方言。
语音识别
W
gchhablani
27
0
Wav2vec2 Large West Germanic Voxpopuli V2
Facebook的Wav2Vec2大型模型,仅在西日耳曼语系的VoxPopuli语料库66.3无标注数据上进行预训练。
语音识别
Transformers
W
facebook
25
1
Wav2vec2 Large El Voxpopuli V2
基于VoxPopuli语料库预训练的希腊语语音识别模型,使用17.7小时未标注数据
语音识别
Transformers
其他
W
facebook
24
0
S2t Wav2vec2 Large En Tr
MIT
一个基于Transformer的端到端语音翻译模型,用于英语到土耳其语的语音转文本任务
语音识别
Transformers
支持多种语言
S
facebook
55
3
Wav2vec2 Xls R 300m Turkish Tr Med
Apache-2.0
该模型是基于facebook/wav2vec2-xls-r-300m在常见语音数据集上微调的土耳其语语音识别模型
语音识别
Transformers
W
emre
22
0
Output
该模型是在阿布哈兹语数据集上微调的自动语音识别模型,基于XLS-R架构
语音识别
Transformers
其他
O
deepdml
25
0
Wav2vec2 Large Xls R 300m Welsh
Apache-2.0
这是一个基于facebook/wav2vec2-xls-r-300m在威尔士语数据集上微调的自动语音识别模型,在Common Voice 7威尔士语测试集上取得了31.003%的词错误率和7.775%的字错误率。
语音识别
Transformers
其他
W
infinitejoy
89
0
Wav2vec2 Large North Germanic Voxpopuli V2
基于北日耳曼语系VoxPopuli语料库预训练的大型语音模型
语音识别
Transformers
W
facebook
25
0
S2t Small Covost2 En Ca St
MIT
这是一个基于Transformer的端到端语音翻译模型,专门用于将英语语音翻译成加泰罗尼亚语文本。
语音识别
Transformers
支持多种语言
S
facebook
15
0
S2t Small Covost2 En Et St
MIT
这是一个基于Transformer的端到端语音翻译模型,专门用于将英语语音转换为爱沙尼亚语文本。
语音识别
Transformers
支持多种语言
S
facebook
15
0
Wav2vec2 Base 10k Voxpopuli Ft Hr
基于Facebook Wav2Vec2架构的语音识别模型,使用VoxPopuli语料库预训练并在克罗地亚语数据上微调
语音识别
Transformers
其他
W
facebook
20
0