多模态视觉语言
Spaceqwen2.5 VL 3B Instruct I1 GGUF
Apache-2.0
SpaceQwen2.5-VL-3B-Instruct是一个3B参数的视觉语言模型,专注于空间推理和多模态任务。
文本生成图像
英语
S
mradermacher
459
0
VLM R1 Qwen2.5VL 3B OVD 0321
Apache-2.0
基于Qwen2.5-VL-3B-Instruct的零样本目标检测模型,通过VLM-R1强化学习增强,支持开放词汇检测任务。
文本生成图像
英语
V
omlab
892
11
Eagle2 1B
鹰隼2号是一个高性能视觉语言模型家族,专注于数据策略和训练方案的透明性,旨在推动开源社区开发具有竞争力的视觉语言模型。
图像生成文本
Transformers
其他
E
nvidia
1,791
23
Eagle2 2B
Eagle2是NVIDIA推出的高性能视觉语言模型家族,专注于通过数据策略和训练方案提升开源视觉语言模型的性能。
文本生成图像
Transformers
其他
E
nvidia
667
21
Minivla Libero90 Prismatic
MIT
MiniVLA是一个10亿参数规模的视觉语言模型,与棱镜视觉语言模型项目代码库兼容,适用于机器人技术和多模态任务。
图像生成文本
Transformers
英语
M
Stanford-ILIAD
127
0
Paligemma2 28b Mix 224
PaliGemma 2是Google推出的升级版视觉语言模型,结合Gemma 2和SigLIP视觉模型能力,支持多语言图像文本交互任务。
图像生成文本
Transformers
P
google
2,050
4
Paligemma2 28b Mix 448
PaliGemma 2是基于Gemma 2的视觉语言模型,支持图像+文本输入,输出文本响应,适用于多种视觉语言任务。
图像生成文本
Transformers
P
google
198
26
Paligemma2 10b Pt 896
PaliGemma 2是Google推出的视觉语言模型(VLM),融合Gemma 2能力,支持图像和文本输入生成文本输出
图像生成文本
Transformers
P
google
233
32
Paligemma2 10b Pt 448
PaliGemma 2是Google推出的升级版视觉语言模型(VLM),融合Gemma 2能力,支持图像和文本输入生成文本输出。
图像生成文本
Transformers
P
google
282
14
Paligemma2 3b Pt 448
PaliGemma 2是基于Gemma 2的视觉语言模型,支持图像和文本输入,生成文本输出,适用于多种视觉语言任务。
图像生成文本
Transformers
P
google
3,412
45
Paligemma2 3b Pt 224
PaliGemma 2是Google开发的视觉语言模型(VLM),结合了Gemma 2语言模型和SigLIP视觉模型的能力,支持多语言视觉语言任务。
图像生成文本
Transformers
P
google
30.51k
148
Paligemma2 10b Mix 224
PaliGemma 2是基于Gemma 2的视觉语言模型,支持图像和文本输入,生成文本输出,适用于多种视觉语言任务。
图像生成文本
Transformers
P
google
701
7
Paligemma2 3b Mix 448
PaliGemma 2是基于Gemma 2的视觉语言模型,支持图像与文本输入,输出生成文本,适用于多种视觉语言任务。
图像生成文本
Transformers
P
google
20.55k
44
Paligemma2 3b Ft Docci 448
PaliGemma 2是Google推出的升级版视觉语言模型,结合Gemma 2和SigLIP视觉模型的能力,支持多语言视觉语言任务。
图像生成文本
Transformers
P
google
8,765
12
Llama 3.1 8B Dragonfly V2
蜻蜓是基于Llama 3.1通过指令微调训练的多模态视觉语言模型,支持图像与文本的联合理解与生成
图像生成文本
英语
L
togethercomputer
113
1
Openvla V01 7b
MIT
OpenVLA v0.1 7B是一个开源视觉-语言-动作模型,基于Open X-Embodiment数据集训练,支持多种机器人控制。
文本生成图像
Transformers
英语
O
openvla
30
10
Paligemma 3b Pt 448
PaliGemma是一款轻量级多功能视觉语言模型,基于SigLIP视觉模型和Gemma语言模型构建,支持多语言图像文本交互任务。
图像生成文本
Transformers
P
google
2,708
29
Paligemma 3b Ft Refcoco Seg 896
PaliGemma是Google开发的轻量级视觉语言模型,基于SigLIP视觉模型和Gemma语言模型构建,支持多语言文本生成和视觉理解任务。
图像生成文本
Transformers
P
google
20
6
Paligemma 3b Mix 224
PaliGemma是一款多功能、轻量级的视觉语言模型(VLM),基于SigLIP视觉模型和Gemma语言模型构建,支持图像和文本输入,输出文本结果。
文本生成图像
Transformers
P
google
143.03k
75
Paligemma 3b Pt 224
PaliGemma是一款多功能轻量级视觉语言模型(VLM),基于SigLIP视觉模型和Gemma语言模型构建,能同时处理图像和文本输入并生成文本输出。
图像生成文本
Transformers
P
google
38.40k
318
Vitamin XL 384px
MIT
ViTamin-XL-384px 是一个基于 ViTamin 架构的大规模视觉语言模型,专为视觉语言任务设计,支持高分辨率图像处理和多模态特征提取。
图像生成文本
Transformers
V
jienengchen
104
20
Internvl 14B 224px
MIT
InternVL-14B-224px 是一个14B参数量的视觉语言基础模型,支持多种视觉语言任务。
文本生成图像
Transformers
I
OpenGVLab
521
37