全局平均池化
Vit So400m Patch16 Siglip Gap 384.v2 Webli
Apache-2.0
基于SigLIP 2的ViT图像编码器,采用全局平均池化,移除了注意力池化头,适用于图像特征提取任务。
图像分类
Transformers
V
timm
19
0
Vit So400m Patch16 Siglip Gap 256.v2 Webli
Apache-2.0
基于SigLIP 2的ViT图像编码器,采用全局平均池化,移除了注意力池化头,适用于图像特征提取任务。
文本生成图像
Transformers
V
timm
22
0
Vit So400m Patch14 Siglip Gap 378.v2 Webli
Apache-2.0
基于SigLIP 2架构的视觉Transformer模型,使用WebLI数据集预训练,移除了注意力池化头并采用全局平均池化
图像分类
Transformers
V
timm
20
0
Vit So400m Patch14 Siglip Gap 224.v2 Webli
Apache-2.0
基于SigLIP 2的ViT图像编码器,采用全局平均池化,移除了注意力池化头,适用于图像特征提取任务。
图像分类
Transformers
V
timm
179
0
Vit Large Patch16 Siglip Gap 512.v2 Webli
Apache-2.0
基于SigLIP 2架构的视觉Transformer模型,专为图像特征提取设计,采用全局平均池化(GAP)替代注意力池化头部
图像分类
Transformers
V
timm
29
0
Vit Large Patch16 Siglip Gap 384.v2 Webli
Apache-2.0
基于SigLIP 2架构的视觉Transformer模型,采用全局平均池化(GAP)的变体,移除了注意力池化头,适用于图像特征提取任务。
文本生成图像
Transformers
V
timm
95
0
Vit Giantopt Patch16 Siglip Gap 384.v2 Webli
Apache-2.0
基于SigLIP 2的ViT图像编码器,采用全局平均池化处理,移除了注意力池化头部,适用于图像特征提取任务。
图像分类
Transformers
V
timm
21
0
Vit Giantopt Patch16 Siglip Gap 256.v2 Webli
Apache-2.0
SigLIP 2 ViT图像编码器,采用全局平均池化,移除了注意力池化头,专为timm设计
图像分类
Transformers
V
timm
17
0
Vit Base Patch32 Siglip Gap 256.v2 Webli
Apache-2.0
基于SigLIP 2的视觉Transformer模型,使用全局平均池化(GAP)替代注意力池化头的图像编码器
文本生成图像
Transformers
V
timm
25
1
Vit Base Patch16 Siglip Gap 512.v2 Webli
Apache-2.0
基于SigLIP 2的ViT图像编码器,采用全局平均池化,移除了注意力池化头,适用于图像特征提取任务。
图像分类
Transformers
V
timm
105
0
Vit Base Patch16 Siglip Gap 384.v2 Webli
Apache-2.0
基于SigLIP 2的ViT图像编码器,使用全局平均池化(GAP)替代注意力池化头,适用于图像特征提取任务。
图像分类
Transformers
V
timm
105
0
Vit Base Patch16 Siglip Gap 256.v2 Webli
Apache-2.0
基于SigLIP 2的ViT图像编码器,采用全局平均池化,移除注意力池化头,适用于图像特征提取。
多模态融合
Transformers
V
timm
114
1
Vit Base Patch16 Siglip Gap 224.v2 Webli
Apache-2.0
基于SigLIP 2的视觉变换器模型,采用全局平均池化处理图像特征
图像分类
Transformers
V
timm
303
0
Vit So400m Patch16 Siglip Gap 512.v2 Webli
Apache-2.0
基于SigLIP 2的ViT图像编码器,采用全局平均池化处理,适用于视觉语言任务。
文本生成图像
Transformers
V
timm
21
0
Vit So400m Patch14 Siglip Gap 896.pali Pt
Apache-2.0
基于SigLIP图像编码器的视觉模型,采用全局平均池化,是PaliGemma项目的一部分
文本生成图像
Transformers
V
timm
15
1
Vit So400m Patch14 Siglip Gap 896.pali2 3b Pt
Apache-2.0
基于SigLIP图像编码器的视觉模型,采用全局平均池化,是PaliGemma2项目的一部分
文本生成图像
Transformers
V
timm
14
1
Vit So400m Patch14 Siglip Gap 448.pali Mix
Apache-2.0
基于SigLIP图像编码器的视觉语言模型,采用全局平均池化处理,适用于多模态任务。
文本生成图像
Transformers
V
timm
15
0
Vit Large Patch16 Siglip Gap 384.webli
Apache-2.0
基于SigLIP的视觉Transformer模型,采用全局平均池化,适用于图像特征提取任务。
图像分类
Transformers
V
timm
13
0
Vit Base Patch16 Siglip Gap 224.webli
Apache-2.0
基于SigLIP的视觉Transformer模型,仅包含图像编码器部分,采用全局平均池化策略
图像分类
Transformers
V
timm
178
1