WebLI预训练
Vit So400m Patch16 Siglip Gap 384.v2 Webli
Apache-2.0
基于SigLIP 2的ViT图像编码器,采用全局平均池化,移除了注意力池化头,适用于图像特征提取任务。
图像分类
Transformers
V
timm
19
0
Vit Giantopt Patch16 Siglip Gap 384.v2 Webli
Apache-2.0
基于SigLIP 2的ViT图像编码器,采用全局平均池化处理,移除了注意力池化头部,适用于图像特征提取任务。
图像分类
Transformers
V
timm
21
0
Vit Base Patch32 Siglip Gap 256.v2 Webli
Apache-2.0
基于SigLIP 2的视觉Transformer模型,使用全局平均池化(GAP)替代注意力池化头的图像编码器
文本生成图像
Transformers
V
timm
25
1
Vit Gopt 16 SigLIP2 256
Apache-2.0
基于WebLI数据集训练的SigLIP 2视觉语言模型,适用于零样本图像分类任务。
文本生成图像
V
timm
43.20k
0
Vit SO400M 16 SigLIP2 512
Apache-2.0
基于WebLI数据集训练的SigLIP 2视觉语言模型,适用于零样本图像分类任务
文本生成图像
V
timm
1,191
4
Vit SO400M 16 SigLIP2 384
Apache-2.0
基于WebLI数据集训练的SigLIP 2视觉语言模型,支持零样本图像分类任务。
文本生成图像
V
timm
106.30k
2
Vit SO400M 16 SigLIP2 256
Apache-2.0
基于WebLI数据集训练的SigLIP 2视觉语言模型,支持零样本图像分类
文本生成图像
V
timm
998
0
Vit SO400M 14 SigLIP2 378
Apache-2.0
基于WebLI数据集训练的SigLIP 2视觉语言模型,支持零样本图像分类任务
文本生成图像
V
timm
1,596
1
Vit SO400M 14 SigLIP2
Apache-2.0
一个在WebLI数据集上训练的SigLIP 2视觉语言模型,适用于零样本图像分类任务。
文本生成图像
V
timm
1,178
0
Vit L 16 SigLIP2 512
Apache-2.0
基于WebLI数据集训练的SigLIP 2视觉语言模型,支持零样本图像分类任务
文本生成图像
V
timm
147
2
Vit L 16 SigLIP2 384
Apache-2.0
一个在WebLI数据集上训练的SigLIP 2视觉语言模型,适用于零样本图像分类任务。
文本生成图像
V
timm
581
0
Vit L 16 SigLIP2 256
Apache-2.0
基于WebLI数据集训练的SigLIP 2视觉语言模型,支持零样本图像分类
文本生成图像
V
timm
888
0
Vit B 16 SigLIP2 512
Apache-2.0
基于WebLI数据集训练的SigLIP 2视觉语言模型,支持零样本图像分类任务
文本生成图像
V
timm
1,442
1
Vit B 16 SigLIP2
Apache-2.0
基于WebLI数据集训练的SigLIP 2视觉语言模型,适用于零样本图像分类任务。
文本生成图像
V
timm
11.26k
0
Vit B 32 SigLIP2 256
Apache-2.0
基于WebLI数据集训练的SigLIP 2视觉语言模型,支持零样本图像分类任务
文本生成图像
V
timm
691
0
Vit B 16 SigLIP2 256
Apache-2.0
基于WebLI数据集训练的SigLIP 2视觉语言模型,支持零样本图像分类任务
文本生成图像
V
timm
10.32k
4
Siglip2 So400m Patch16 256
Apache-2.0
SigLIP 2 是基于 SigLIP 的改进模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像
Transformers
S
google
2,729
0
Siglip2 Base Patch16 224
Apache-2.0
SigLIP 2是基于SigLIP改进的多语言视觉语言编码器,增强了语义理解、定位和密集特征提取能力。
图像生成文本
Transformers
S
google
44.75k
38
Siglip So400m Patch16 256 I18n
Apache-2.0
基于SoViT主干网络、采用Sigmoid损失函数改进的多模态模型,支持零样本图像分类和图文检索
图像生成文本
Transformers
S
google
230
29
Siglip So400m Patch14 384
Apache-2.0
SigLIP是基于WebLi数据集预训练的视觉语言模型,采用改进的sigmoid损失函数,优化了图像-文本匹配任务。
图像生成文本
Transformers
S
google
6.1M
526
Siglip Base Patch16 256 Multilingual
Apache-2.0
SigLIP是基于WebLi数据集预训练的改进版CLIP模型,采用Sigmoid损失函数优化图像-文本匹配任务
文本生成图像
Transformers
S
google
175.86k
44
Siglip Base Patch16 512
Apache-2.0
SigLIP是基于WebLi数据集预训练的视觉-语言模型,采用改进的sigmoid损失函数,在图像分类和图文检索任务中表现优异。
文本生成图像
Transformers
S
google
237.79k
24
Vit B 16 SigLIP I18n 256
Apache-2.0
一个在WebLI数据集上训练的SigLIP(用于语言-图像预训练的Sigmoid损失)模型,适用于零样本图像分类任务。
文本生成图像
V
timm
87.92k
3
Vit SO400M 14 SigLIP 384
Apache-2.0
基于WebLI数据集训练的SigLIP(语言-图像预训练的Sigmoid损失)模型,适用于零样本图像分类任务。
文本生成图像
V
timm
158.84k
79
Vit SO400M 14 SigLIP
Apache-2.0
一个在WebLI数据集上训练的SigLIP(用于语言-图像预训练的Sigmoid损失)模型,适用于零样本图像分类任务。
文本生成图像
V
timm
79.55k
17
Vit L 16 SigLIP 384
Apache-2.0
基于WebLI数据集训练的SigLIP(Sigmoid Loss for Language-Image Pre-training)模型,用于零样本图像分类任务。
文本生成图像
V
timm
3,008
27
Vit L 16 SigLIP 256
Apache-2.0
基于WebLI数据集训练的SigLIP(语言图像预训练的Sigmoid损失)模型,用于零样本图像分类任务。
文本生成图像
V
timm
1,516
1
Vit B 16 SigLIP 512
Apache-2.0
基于WebLI数据集训练的SigLIP(Sigmoid损失语言图像预训练)模型,用于零样本图像分类任务
文本生成图像
V
timm
3,787
7
Vit B 16 SigLIP 384
Apache-2.0
基于WebLI数据集训练的SigLIP(Sigmoid损失语言图像预训练)模型,用于零样本图像分类任务
文本生成图像
V
timm
4,119
4
Vit B 16 SigLIP 256
Apache-2.0
一个在WebLI数据集上训练的SigLIP(语言-图像预训练的Sigmoid损失)模型,适用于零样本图像分类任务。
文本生成图像
V
timm
17.15k
1
Siglip Base Patch16 224
Apache-2.0
SigLIP是基于WebLi数据集预训练的视觉语言模型,采用改进的Sigmoid损失函数,优化了图像-文本匹配任务
图像生成文本
Transformers
S
google
250.28k
43