vit_base_patch16_siglip_gap_224.v2_webli开源视觉模型

Vit Base Patch16 Siglip Gap 224.v2 Webli

由 timm 开发

基于SigLIP 2的视觉变换器模型，采用全局平均池化处理图像特征

下载量 303

发布时间 : 2/21/2025

模型简介

这是一个专为timm设计的SigLIP 2 ViT图像编码器，移除了注意力池化头，采用全局平均池化方式提取图像特征。

全局平均池化

采用GAP(全局平均池化)替代注意力池化头，简化特征提取过程

SigLIP 2改进

基于SigLIP 2架构，具有改进的语义理解和定位能力

密集特征提取

能够生成高质量的密集图像特征表示

图像特征提取

视觉语义理解

多模态任务支持

计算机视觉

图像检索

利用提取的图像特征进行相似图像搜索

多模态任务

作为视觉编码器用于视觉-语言联合任务

属性	详情
数据集	webli
相关论文	- SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features: https://arxiv.org/abs/2502.14786 - Sigmoid Loss for Language Image Pre-Training: https://arxiv.org/abs/2303.15343