vit_base_patch16_siglip_224.v2_webli开源模型 - 精准提取图像特征，功能强大！

Vit Base Patch16 Siglip 224.v2 Webli

由 timm 开发

基于SigLIP 2的ViT模型，专注于图像特征提取，使用webli数据集训练

下载量 1,992

发布时间 : 2/21/2025

模型简介

这是一个基于SigLIP 2架构的视觉Transformer模型，专门用于图像特征提取任务。它是SigLIP 2模型中的图像编码器部分，适用于各种计算机视觉应用。

SigLIP 2架构

采用改进的SigLIP 2架构，具有更好的语义理解和定位能力

密集特征提取

能够生成高质量的密集图像特征表示

Webli数据集训练

使用大规模webli数据集进行预训练，具有广泛的知识覆盖

图像特征提取

视觉语义理解

图像定位

计算机视觉

图像检索

使用提取的图像特征进行相似图像搜索

高精度的检索结果

视觉问答

作为视觉编码器用于VQA系统

改善对图像内容的理解能力

属性	详情
数据集	webli
相关论文	- SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features: https://arxiv.org/abs/2502.14786 - Sigmoid Loss for Language Image Pre-Training: https://arxiv.org/abs/2303.15343