vit_so400m_patch14_siglip_378.v2_webli开源模型

Vit So400m Patch14 Siglip 378.v2 Webli

由 timm 开发

基于SigLIP 2的视觉Transformer模型，专为图像特征提取设计，训练于webli数据集

下载量 30

发布时间 : 2/21/2025

模型简介

这是一个SigLIP 2架构的视觉Transformer模型，仅包含图像编码器部分，适用于图像特征提取任务。模型基于timm库实现，功能等同于HuggingFace上的ViT-SO400M-14-SigLIP2-378模型的图像塔模块。

SigLIP 2架构

采用改进的SigLIP 2架构，具备增强的语义理解和定位能力

密集特征提取

能够提取图像的密集特征表示

大规模预训练

在webli大规模数据集上进行预训练

图像特征提取

视觉语义理解

图像定位

计算机视觉

图像检索

利用提取的图像特征进行相似图像检索

视觉定位

识别和定位图像中的特定对象或区域

多模态应用

视觉-语言任务

作为视觉编码器用于图像-文本匹配等任务

属性	详情
数据集	webli
相关论文	- SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features: https://arxiv.org/abs/2502.14786 - Sigmoid Loss for Language Image Pre-Training: https://arxiv.org/abs/2303.15343