Phi 4 Multimodal Instruct
MIT
Phi-4-multimodal-instruct是一个轻量级开源多模态基础模型,支持文本、图像和音频输入,生成文本输出,具备128K标记的上下文长度。
多模态融合
Transformers

支持多种语言
P
mjtechguy
18
0
Whisper Uz
Apache-2.0
基于Whisper Base微调的乌兹别克语语音识别模型,在Common Voice数据集上训练
语音识别
Transformers

其他
W
jamshidahmadov
1,179
3
Wav2vec2 Large Xlsr 53 Tr Fine Tuning Deprecated
Apache-2.0
该模型是基于facebook/wav2vec2-large-xlsr-53在common_voice土耳其语数据集上微调的语音识别模型
语音识别
Transformers

W
bekirbakar
17
0
English Filipino Wav2vec2 L Xls R Test 07
Apache-2.0
该模型是基于jonatasgrosman/wav2vec2-large-xlsr-53-english在菲律宾语音数据集上微调的版本,主要用于英语到菲律宾语的语音识别任务。
语音识别
Transformers

E
Khalsuu
24
0
Wav2vec2 Xlsr Nepali
Apache-2.0
该模型是基于facebook/wav2vec2-large-xlsr-53在尼泊尔语数据集上微调的语音识别模型。
语音识别
W
shishirAI
22
2
Wav2vec2 Large Xls R 300m Irish Colab Test
Apache-2.0
这是一个基于facebook/wav2vec2-xls-r-300m模型在common_voice爱尔兰语数据集上微调的语音识别模型,主要用于爱尔兰语的自动语音识别任务。
语音识别
Transformers

W
jfealko
24
0
Xls R Et V 3
Apache-2.0
该模型是基于facebook/wav2vec2-xls-r-1b在爱沙尼亚语数据集上微调的自动语音识别模型
语音识别
Transformers

其他
X
vasilis
41
0
Wav2vec2 Large Xlsr Slovene
Apache-2.0
这是一个基于Facebook的wav2vec2-large-xlsr-53模型进行微调的斯洛文尼亚语语音识别模型,使用Common Voice数据集训练。
语音识别
其他
W
mrshu
23
2
Wav2vec2 Large Xlsr Rm Sursilv
Apache-2.0
这是一个基于facebook/wav2vec2-large-xlsr-53模型微调的自动语音识别模型,专门用于识别罗曼什语的苏塞尔瓦方言。
语音识别
W
gchhablani
27
0
Wav2vec2 Large West Germanic Voxpopuli V2
Facebook的Wav2Vec2大型模型,仅在西日耳曼语系的VoxPopuli语料库66.3无标注数据上进行预训练。
语音识别
Transformers

W
facebook
25
1
Wav2vec2 Large El Voxpopuli V2
基于VoxPopuli语料库预训练的希腊语语音识别模型,使用17.7小时未标注数据
语音识别
Transformers

其他
W
facebook
24
0
S2t Wav2vec2 Large En Tr
MIT
一个基于Transformer的端到端语音翻译模型,用于英语到土耳其语的语音转文本任务
语音识别
Transformers

支持多种语言
S
facebook
55
3
Wav2vec2 Xls R 300m Turkish Tr Med
Apache-2.0
该模型是基于facebook/wav2vec2-xls-r-300m在常见语音数据集上微调的土耳其语语音识别模型
语音识别
Transformers

W
emre
22
0
Output
该模型是在阿布哈兹语数据集上微调的自动语音识别模型,基于XLS-R架构
语音识别
Transformers

其他
O
deepdml
25
0
Wav2vec2 Large Xls R 300m Welsh
Apache-2.0
这是一个基于facebook/wav2vec2-xls-r-300m在威尔士语数据集上微调的自动语音识别模型,在Common Voice 7威尔士语测试集上取得了31.003%的词错误率和7.775%的字错误率。
语音识别
Transformers

其他
W
infinitejoy
89
0
Wav2vec2 Large North Germanic Voxpopuli V2
基于北日耳曼语系VoxPopuli语料库预训练的大型语音模型
语音识别
Transformers

W
facebook
25
0
S2t Small Covost2 En Ca St
MIT
这是一个基于Transformer的端到端语音翻译模型,专门用于将英语语音翻译成加泰罗尼亚语文本。
语音识别
Transformers

支持多种语言
S
facebook
15
0
S2t Small Covost2 En Et St
MIT
这是一个基于Transformer的端到端语音翻译模型,专门用于将英语语音转换为爱沙尼亚语文本。
语音识别
Transformers

支持多种语言
S
facebook
15
0
Wav2vec2 Base 10k Voxpopuli Ft Hr
基于Facebook Wav2Vec2架构的语音识别模型,使用VoxPopuli语料库预训练并在克罗地亚语数据上微调
语音识别
Transformers

其他
W
facebook
20
0
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文