vit_so400m_patch16_siglip_gap_256.v2_webli开源模型

Vit So400m Patch16 Siglip Gap 256.v2 Webli

由 timm 开发

基于SigLIP 2的ViT图像编码器，采用全局平均池化，移除了注意力池化头，适用于图像特征提取任务。

下载量 22

发布时间 : 2/21/2025

模型简介

该模型是一个专为timm设计的SigLIP 2 ViT（仅图像编码器），采用全局平均池化（GAP）替代注意力池化头，主要用于图像特征提取任务。

SigLIP 2架构

采用改进的SigLIP 2架构，具备更好的语义理解、定位和密集特征提取能力。

全局平均池化

使用全局平均池化（GAP）替代注意力池化头，简化模型结构。

多语言支持

基于webli数据集训练，具备多语言处理能力。

图像特征提取

语义理解

视觉定位

计算机视觉

图像检索

利用提取的图像特征进行高效图像检索。

视觉问答

作为视觉-语言模型的图像编码器部分使用。

属性	详情
数据集	webli
相关论文	- SigLIP 2: Multilingual Vision - Language Encoders with Improved Semantic Understanding, Localization, and Dense Features: https://arxiv.org/abs/2502.14786 - Sigmoid Loss for Language Image Pre - Training: https://arxiv.org/abs/2303.15343