vit_base_patch16_siglip_256.v2_webli开源图像编码器 - 提取特征支持多语言视觉任务

Vit Base Patch16 Siglip 256.v2 Webli

由 timm 开发

基于SigLIP 2的ViT图像编码器，用于提取图像特征，支持多语言视觉-语言任务。

下载量 731

发布时间 : 2/21/2025

模型简介

这是一个基于SigLIP 2的Vision Transformer模型，专门用于图像特征提取。它是SigLIP 2论文中描述的视觉编码器部分，适用于各种视觉-语言任务。

改进的语义理解

基于SigLIP 2架构，具有增强的语义理解能力

定位能力

改进了图像中对象的定位能力

密集特征提取

能够提取更丰富的密集图像特征

Sigmoid损失函数

使用Sigmoid损失进行语言图像预训练，提高了模型性能

图像特征提取

视觉-语言理解

多模态表示学习

计算机视觉

图像检索

使用提取的图像特征进行高效的图像检索

视觉问答

作为视觉编码器用于视觉问答系统

多模态应用

图文匹配

用于图像和文本的匹配任务

属性	详情
数据集	webli
相关论文	- SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features: https://arxiv.org/abs/2502.14786 - Sigmoid Loss for Language Image Pre-Training: https://arxiv.org/abs/2303.15343