Spaceqwen2.5 VL 3B Instruct I1 GGUF
Apache-2.0
SpaceQwen2.5-VL-3B-Instruct是一个3B参数的视觉语言模型,专注于空间推理和多模态任务。
文本生成图像
英语
S
mradermacher
459
0
VLM R1 Qwen2.5VL 3B OVD 0321
Apache-2.0
基于Qwen2.5-VL-3B-Instruct的零样本目标检测模型,通过VLM-R1强化学习增强,支持开放词汇检测任务。
文本生成图像
英语
V
omlab
892
11
Eagle2 1B
鹰隼2号是一个高性能视觉语言模型家族,专注于数据策略和训练方案的透明性,旨在推动开源社区开发具有竞争力的视觉语言模型。
图像生成文本
Transformers

其他
E
nvidia
1,791
23
Eagle2 2B
Eagle2是NVIDIA推出的高性能视觉语言模型家族,专注于通过数据策略和训练方案提升开源视觉语言模型的性能。
文本生成图像
Transformers

其他
E
nvidia
667
21
Minivla Libero90 Prismatic
MIT
MiniVLA是一个10亿参数规模的视觉语言模型,与棱镜视觉语言模型项目代码库兼容,适用于机器人技术和多模态任务。
图像生成文本
Transformers

英语
M
Stanford-ILIAD
127
0
Paligemma2 28b Mix 224
PaliGemma 2是Google推出的升级版视觉语言模型,结合Gemma 2和SigLIP视觉模型能力,支持多语言图像文本交互任务。
图像生成文本
Transformers

P
google
2,050
4
Paligemma2 28b Mix 448
PaliGemma 2是基于Gemma 2的视觉语言模型,支持图像+文本输入,输出文本响应,适用于多种视觉语言任务。
图像生成文本
Transformers

P
google
198
26
Paligemma2 10b Pt 896
PaliGemma 2是Google推出的视觉语言模型(VLM),融合Gemma 2能力,支持图像和文本输入生成文本输出
图像生成文本
Transformers

P
google
233
32
Paligemma2 10b Pt 448
PaliGemma 2是Google推出的升级版视觉语言模型(VLM),融合Gemma 2能力,支持图像和文本输入生成文本输出。
图像生成文本
Transformers

P
google
282
14
Paligemma2 3b Pt 448
PaliGemma 2是基于Gemma 2的视觉语言模型,支持图像和文本输入,生成文本输出,适用于多种视觉语言任务。
图像生成文本
Transformers

P
google
3,412
45
Paligemma2 3b Pt 224
PaliGemma 2是Google开发的视觉语言模型(VLM),结合了Gemma 2语言模型和SigLIP视觉模型的能力,支持多语言视觉语言任务。
图像生成文本
Transformers

P
google
30.51k
148
Paligemma2 10b Mix 224
PaliGemma 2是基于Gemma 2的视觉语言模型,支持图像和文本输入,生成文本输出,适用于多种视觉语言任务。
图像生成文本
Transformers

P
google
701
7
Paligemma2 3b Mix 448
PaliGemma 2是基于Gemma 2的视觉语言模型,支持图像与文本输入,输出生成文本,适用于多种视觉语言任务。
图像生成文本
Transformers

P
google
20.55k
44
Paligemma2 3b Ft Docci 448
PaliGemma 2是Google推出的升级版视觉语言模型,结合Gemma 2和SigLIP视觉模型的能力,支持多语言视觉语言任务。
图像生成文本
Transformers

P
google
8,765
12
Llama 3.1 8B Dragonfly V2
蜻蜓是基于Llama 3.1通过指令微调训练的多模态视觉语言模型,支持图像与文本的联合理解与生成
图像生成文本
英语
L
togethercomputer
113
1
Openvla V01 7b
MIT
OpenVLA v0.1 7B是一个开源视觉-语言-动作模型,基于Open X-Embodiment数据集训练,支持多种机器人控制。
文本生成图像
Transformers

英语
O
openvla
30
10
Paligemma 3b Pt 448
PaliGemma是一款轻量级多功能视觉语言模型,基于SigLIP视觉模型和Gemma语言模型构建,支持多语言图像文本交互任务。
图像生成文本
Transformers

P
google
2,708
29
Paligemma 3b Ft Refcoco Seg 896
PaliGemma是Google开发的轻量级视觉语言模型,基于SigLIP视觉模型和Gemma语言模型构建,支持多语言文本生成和视觉理解任务。
图像生成文本
Transformers

P
google
20
6
Paligemma 3b Mix 224
PaliGemma是一款多功能、轻量级的视觉语言模型(VLM),基于SigLIP视觉模型和Gemma语言模型构建,支持图像和文本输入,输出文本结果。
文本生成图像
Transformers

P
google
143.03k
75
Paligemma 3b Pt 224
PaliGemma是一款多功能轻量级视觉语言模型(VLM),基于SigLIP视觉模型和Gemma语言模型构建,能同时处理图像和文本输入并生成文本输出。
图像生成文本
Transformers

P
google
38.40k
318
Vitamin XL 384px
MIT
ViTamin-XL-384px 是一个基于 ViTamin 架构的大规模视觉语言模型,专为视觉语言任务设计,支持高分辨率图像处理和多模态特征提取。
图像生成文本
Transformers

V
jienengchen
104
20
Internvl 14B 224px
MIT
InternVL-14B-224px 是一个14B参数量的视觉语言基础模型,支持多种视觉语言任务。
文本生成图像
Transformers

I
OpenGVLab
521
37
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文