vit_giantopt_patch16_siglip_gap_384.v2_webli开源图像编码器

Vit Giantopt Patch16 Siglip Gap 384.v2 Webli

由 timm 开发

基于SigLIP 2的ViT图像编码器，采用全局平均池化处理，移除了注意力池化头部，适用于图像特征提取任务。

下载量 21

发布时间 : 2/21/2025

模型简介

该模型是一个专为timm设计的SigLIP 2 ViT图像编码器，主要用于图像特征提取。它等同于HuggingFace上的ViT-gopt-16-SigLIP2-384模型的图像塔部分，但采用了全局平均池化(gap)变体。

SigLIP 2架构

采用改进的SigLIP 2架构，具有更好的语义理解和定位能力

全局平均池化

使用全局平均池化(gap)变体，移除了注意力池化头部

Webli数据集训练

在Webli数据集上进行预训练，具有广泛的视觉表示能力

图像特征提取

视觉语义理解

图像定位

计算机视觉

图像检索

利用提取的图像特征进行相似图像检索

视觉问答

作为视觉编码器用于视觉问答系统

多模态应用

图文匹配

用于图像和文本的匹配任务

属性	详情
数据集	webli
相关论文	- SigLIP 2: Multilingual Vision - Language Encoders with Improved Semantic Understanding, Localization, and Dense Features: https://arxiv.org/abs/2502.14786 - Sigmoid Loss for Language Image Pre - Training: https://arxiv.org/abs/2303.15343