目标检测分割
Paligemma2 3b Mix 224 Jax
PaliGemma 2是基于Gemma 2的升级版视觉语言模型,支持多语言图文输入与文本输出,专为视觉语言任务设计
文本生成图像
P
google
38
1
Paligemma2 28b Mix 448
PaliGemma 2是基于Gemma 2的视觉语言模型,支持图像+文本输入,输出文本响应,适用于多种视觉语言任务。
图像生成文本
Transformers
P
google
198
26
Paligemma2 3b Pt 224
PaliGemma 2是Google开发的视觉语言模型(VLM),结合了Gemma 2语言模型和SigLIP视觉模型的能力,支持多语言视觉语言任务。
图像生成文本
Transformers
P
google
30.51k
148
Paligemma2 10b Mix 224
PaliGemma 2是基于Gemma 2的视觉语言模型,支持图像和文本输入,生成文本输出,适用于多种视觉语言任务。
图像生成文本
Transformers
P
google
701
7
Paligemma2 3b Mix 448
PaliGemma 2是基于Gemma 2的视觉语言模型,支持图像与文本输入,输出生成文本,适用于多种视觉语言任务。
图像生成文本
Transformers
P
google
20.55k
44
Paligemma2 3b Mix 224
PaliGemma 2是Google开发的升级版视觉语言模型,结合了Gemma 2的能力,支持图像和文本输入,生成文本输出,适用于多种视觉语言任务。
图像生成文本
Transformers
P
google
15.23k
28
Florence 2 Large No Flash Attn
MIT
Florence-2是微软开发的先进视觉基础模型,采用基于提示的方法处理多样化视觉任务,通过统一表征实现图像描述、目标检测等多种功能。
文本生成图像
F
multimodalart
73.91k
16
Florence 2 Base Ft
MIT
Florence-2是微软开发的先进视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉语言任务。
图像生成文本
Transformers
F
lodestones
14
0
Paligemma 3b Pt 448
PaliGemma是一款轻量级多功能视觉语言模型,基于SigLIP视觉模型和Gemma语言模型构建,支持多语言图像文本交互任务。
图像生成文本
Transformers
P
google
2,708
29
Paligemma 3b Mix 448
PaliGemma是一款多功能轻量级视觉语言模型(VLM),基于SigLIP视觉模型和Gemma语言模型构建,支持图像和文本输入并生成文本输出
图像生成文本
Transformers
P
google
5,488
109
Paligemma 3b Ft Docvqa 896
PaliGemma是Google开发的轻量级视觉语言模型,基于SigLIP视觉模型和Gemma语言模型构建,支持多语言图像文本理解与生成。
图像生成文本
Transformers
P
google
519
9
Paligemma 3b Ft Vqav2 448
PaliGemma是Google开发的轻量级视觉语言模型,结合图像理解和文本生成能力,支持多语言任务。
文本生成图像
Transformers
P
google
121
17