开源SigLIP 2 ViT模型 - 免费实现图像特征提取，基于WebLI数据集训练

Vit So400m Patch16 Siglip 256.v2 Webli

由 timm 开发

SigLIP 2 ViT模型，仅包含图像编码器部分，用于图像特征提取，基于WebLI数据集训练。

下载量 12.56k

发布时间 : 2/21/2025

模型简介

这是一个基于SigLIP 2架构的视觉变换器(ViT)模型，专门用于图像特征提取。它采用了Sigmoid损失函数进行语言图像预训练，具有改进的语义理解和定位能力。

SigLIP 2架构

采用改进的SigLIP 2架构，具有更好的语义理解和定位能力

Sigmoid损失函数

使用Sigmoid损失进行语言图像预训练，提高模型性能

密集特征提取

能够提取图像的密集特征，适用于各种下游视觉任务

图像特征提取

语义理解

图像定位

计算机视觉

图像检索

利用提取的图像特征进行相似图像检索

视觉问答

作为视觉问答系统的图像编码器

多模态应用

图文匹配

用于评估图像和文本描述的匹配程度

属性	详情
数据集	webli
相关论文	- SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features: https://arxiv.org/abs/2502.14786 - Sigmoid Loss for Language Image Pre-Training: https://arxiv.org/abs/2303.15343