SigLIP视觉编码
Smolvlm 500M Anime Caption V0.2
Apache-2.0
专注于描述动漫风格图像的视觉语言模型,基于SmolVLM-500M-Base微调
图像生成文本
Safetensors
英语
S
Andres77872
17
0
Janus Pro 7B
MIT
Janus-Pro 是一种新颖的自回归框架,统一了多模态理解和生成。
文本生成图像
Transformers
J
Athagi
15
1
Vit So400m Patch14 Siglip Gap 896.pali2 10b Pt
Apache-2.0
基于SigLIP图像编码器的视觉模型,带全局平均池化,是PaliGemma2模型的一部分
文本生成图像
Transformers
V
timm
57
1
Vit So400m Patch14 Siglip Gap 448.pali Mix
Apache-2.0
基于SigLIP图像编码器的视觉语言模型,采用全局平均池化处理,适用于多模态任务。
文本生成图像
Transformers
V
timm
15
0
Vit So400m Patch14 Siglip 378.webli
Apache-2.0
基于SigLIP的视觉Transformer模型,仅包含图像编码器,采用原始注意力池化机制。
图像分类
Transformers
V
timm
82
0
Vit Large Patch16 Siglip 384.webli
Apache-2.0
基于SigLIP的视觉Transformer模型,仅包含图像编码器,采用原始注意力池化,适用于图像特征提取任务。
图像分类
Transformers
V
timm
64
0
Vit Base Patch16 Siglip 384.webli
Apache-2.0
基于SigLIP的视觉Transformer模型,仅包含图像编码器部分,采用原始注意力池化机制
图像分类
Transformers
V
timm
64
1
Vit Base Patch16 Siglip 256.webli
Apache-2.0
基于SigLIP的ViT-B-16图像编码器模型,采用原始注意力池化,适用于图像特征提取任务。
图像分类
Transformers
V
timm
269
1
Vit So400m Patch14 Siglip 224.webli
Apache-2.0
基于SigLIP的视觉Transformer模型,仅包含图像编码器部分,采用原始注意力池化机制
图像分类
Transformers
V
timm
123
1
Llm Jp 3 Vila 14b
由日本国立情报学研究所开发的大型视觉语言模型,支持日语和英语,具备强大的图像理解和文本生成能力。
图像生成文本
Safetensors
日语
L
llm-jp
106
10
FLUX.1 Dev IP Adapter
其他
FLUX.1-dev模型的IP适配器,支持将图像处理方式与文本类似,用于文本生成图像任务
文本生成图像
英语
F
InstantX
8,361
279
Nanollava 1.5
Apache-2.0
nanoLLaVA-1.5是一款参数规模在10亿以下的视觉语言模型,专为边缘设备设计,小巧但功能强大。
图像生成文本
Transformers
英语
N
qnguyen3
442
109