vit_large_patch16_siglip_512.v2_webli开源图像编码器

Vit Large Patch16 Siglip 512.v2 Webli

由 timm 开发

基于SigLIP 2的ViT图像编码器，专为timm设计，适用于视觉-语言任务

下载量 295

发布时间 : 2/21/2025

模型简介

这是一个基于SigLIP 2架构的Vision Transformer模型，仅包含图像编码器部分，主要用于图像特征提取和视觉-语言理解任务。

SigLIP 2架构

采用改进的SigLIP 2架构，具有增强的语义理解和定位能力

高分辨率处理

支持512x512像素的高分辨率图像输入

密集特征提取

能够提取图像的密集特征，适合需要精细定位的任务

图像特征提取

视觉语义理解

图像定位

视觉-语言对齐

计算机视觉

图像检索

使用提取的图像特征进行相似图像搜索

视觉问答

作为视觉编码器用于VQA系统

多模态应用

图文匹配

评估图像与文本描述的匹配程度

属性	详情
数据集	webli
相关论文	- SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features: https://arxiv.org/abs/2502.14786 - Sigmoid Loss for Language Image Pre-Training: https://arxiv.org/abs/2303.15343