vit_so400m_patch16_siglip_512.v2_webli开源模型 - 图像特征提取助力多语言视觉语言任务

Vit So400m Patch16 Siglip 512.v2 Webli

由 timm 开发

基于SigLIP 2的视觉Transformer模型，专为图像特征提取设计，适用于多语言视觉-语言任务。

下载量 2,766

发布时间 : 2/21/2025

模型简介

该模型是一个SigLIP 2 ViT（仅图像编码器），主要用于图像特征提取，功能等同于Hugging Face上的ViT-SO400M-16-SigLIP2-512图像编码塔。

SigLIP 2增强

采用SigLIP 2架构，具备增强的语义理解、定位和密集特征提取能力。

多语言支持

设计用于多语言视觉-语言任务，支持跨语言应用。

高效特征提取

专注于图像特征提取，适用于各种下游视觉任务。

图像特征提取

视觉语义理解

跨模态对齐

计算机视觉

图像检索

利用提取的图像特征进行高效图像检索。

视觉问答

作为视觉编码器用于视觉问答系统。

多模态应用

图文匹配

用于图像与文本的跨模态匹配任务。

属性	详情
数据集	webli
相关论文	- SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features: https://arxiv.org/abs/2502.14786 - Sigmoid Loss for Language Image Pre-Training: https://arxiv.org/abs/2303.15343