vit_large_patch16_siglip_256.v2_webli开源模型

Vit Large Patch16 Siglip 256.v2 Webli

由 timm 开发

基于SigLIP 2架构的视觉Transformer模型，专为图像特征提取设计，训练于webli数据集

下载量 525

发布时间 : 2/21/2025

模型简介

该模型是SigLIP 2的视觉编码器部分，采用ViT-Large架构，专注于提取高质量的图像特征表示，适用于多模态任务

SigLIP 2架构

采用改进的视觉-语言预训练架构，具有增强的语义理解和定位能力

大规模预训练

在webli大规模数据集上预训练，学习广泛的视觉概念

密集特征提取

能够提取高质量的图像特征表示，适用于下游视觉任务

图像特征提取

视觉语义理解

多模态表示学习

计算机视觉

图像检索

利用提取的图像特征进行相似图像搜索

高精度检索结果

视觉问答

作为视觉编码器用于多模态问答系统

提升问答准确性

多模态应用

图文匹配

评估图像与文本描述的匹配程度

改进的跨模态对齐能力

属性	详情
数据集	webli
相关论文	- SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features: https://arxiv.org/abs/2502.14786 - Sigmoid Loss for Language Image Pre-Training: https://arxiv.org/abs/2303.15343