轻量级VLM
Smolvlm 500M Anime Caption V0.2
Apache-2.0
专注于描述动漫风格图像的视觉语言模型,基于SmolVLM-500M-Base微调
图像生成文本
Safetensors
英语
S
Andres77872
17
0
Smolvlm 500M Anime Caption V0.1
Apache-2.0
专注于描述动漫风格图像的视觉语言模型,基于SmolVLM-500M-Base微调,训练数据包含18万组由大语言模型生成的合成图像/字幕对。
图像生成文本
英语
S
Andres77872
61
0
Granite Vision 3.2 2b
Apache-2.0
granite-vision-3.2-2b是一款紧凑高效的视觉语言模型,专为视觉文档理解设计,能够从表格、图表、信息图等中自动提取内容。
图像生成文本
Transformers
英语
G
unsloth
43
1
Paligemma 3b Ft Science Qa 448
PaliGemma是由Google开发的30亿参数轻量级视觉语言模型,基于SigLIP视觉模型和Gemma语言模型构建,支持图像和文本输入生成文本输出。
图像生成文本
Transformers
P
google
15
2
Paligemma 3b Pt 448
PaliGemma是一款轻量级多功能视觉语言模型,基于SigLIP视觉模型和Gemma语言模型构建,支持多语言图像文本交互任务。
图像生成文本
Transformers
P
google
2,708
29
Paligemma 3b Mix 448
PaliGemma是一款多功能轻量级视觉语言模型(VLM),基于SigLIP视觉模型和Gemma语言模型构建,支持图像和文本输入并生成文本输出
图像生成文本
Transformers
P
google
5,488
109
Paligemma 3b Ft Docvqa 896
PaliGemma是Google开发的轻量级视觉语言模型,基于SigLIP视觉模型和Gemma语言模型构建,支持多语言图像文本理解与生成。
图像生成文本
Transformers
P
google
519
9
Paligemma 3b Ft Refcoco Seg 896
PaliGemma是Google开发的轻量级视觉语言模型,基于SigLIP视觉模型和Gemma语言模型构建,支持多语言文本生成和视觉理解任务。
图像生成文本
Transformers
P
google
20
6
Paligemma 3b Mix 224
PaliGemma是一款多功能、轻量级的视觉语言模型(VLM),基于SigLIP视觉模型和Gemma语言模型构建,支持图像和文本输入,输出文本结果。
文本生成图像
Transformers
P
google
143.03k
75
Paligemma 3b Pt 224
PaliGemma是一款多功能轻量级视觉语言模型(VLM),基于SigLIP视觉模型和Gemma语言模型构建,能同时处理图像和文本输入并生成文本输出。
图像生成文本
Transformers
P
google
38.40k
318
Paligemma 3b Ft Vqav2 448
PaliGemma是Google开发的轻量级视觉语言模型,结合图像理解和文本生成能力,支持多语言任务。
文本生成图像
Transformers
P
google
121
17
Paligemma 3b Ft Ocrvqa 448
PaliGemma是Google开发的多功能轻量级视觉语言模型(VLM),基于SigLIP视觉模型和Gemma语言模型构建,支持图像和文本输入,输出文本结果。
图像生成文本
Transformers
P
google
365
6