SigLIP 2开源视觉语言编码器 - 提升多语言语义理解与特征提取能力

首页

Siglip2 Base Patch16 256

由 google 开发

SigLIP 2是一个多语言视觉语言编码器，改进了语义理解、定位和密集特征提取能力。

图像生成文本

Transformers

开源协议:Apache-2.0 #零样本图像分类 #图文检索 #多模态编码器

下载量 45.24k

发布时间 : 2/17/2025

模型简介

SigLIP 2在SigLIP的基础上整合了多项技术，提升了视觉语言任务的性能，可用于零样本图像分类和图文检索等任务。

模型特点

改进的语义理解

通过整合解码器损失等技术，提升了模型的语义理解能力。

增强的定位能力

采用全局-局部和掩码预测损失，提高了模型的定位精度。

密集特征提取

优化了密集特征提取能力，适用于多种视觉任务。

宽高比和分辨率适应性

支持多种宽高比和分辨率，增强了模型的适应性。

模型能力

零样本图像分类

图文检索

视觉特征提取

使用案例

图像分类

零样本图像分类

无需微调即可对图像进行分类，支持自定义标签。

在多种数据集上表现优异。

图文检索

跨模态检索

根据文本检索相关图像，或根据图像检索相关文本。

在WebLI数据集上预训练，具有强大的检索能力。

🚀 SigLIP 2 Base

SigLIP 2 将 SigLIP 的预训练目标与先前独立开发的技术相结合，形成了一个统一的方案，以提升语义理解、定位和密集特征提取能力。

🚀 快速开始

预期用途

你可以将原始模型用于零样本图像分类和图像 - 文本检索等任务，或者将其作为视觉语言模型（VLM）的视觉编码器（以及其他视觉任务）。

零样本图像分类示例

以下是如何使用此模型进行零样本图像分类的示例：

from transformers import pipeline

# load pipeline
ckpt = "google/siglip2-base-patch16-256"
image_classifier = pipeline(model=ckpt, task="zero-shot-image-classification")

# load image and candidate labels
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
candidate_labels = ["2 cats", "a plane", "a remote"]

# run inference
outputs = image_classifier(image, candidate_labels)
print(outputs)

图像编码示例

你可以使用视觉塔对图像进行编码，示例如下：

import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image

# load the model and processor
ckpt = "google/siglip2-base-patch16-256"
model = AutoModel.from_pretrained(ckpt, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(ckpt)

# load the image
image = load_image("https://huggingface.co/datasets/merve/coco/resolve/main/val2017/000000000285.jpg")
inputs = processor(images=[image], return_tensors="pt").to(model.device)

# run infernece
with torch.no_grad():
    image_embeddings = model.get_image_features(**inputs)    

print(image_embeddings.shape)

更多代码示例，请参考 siglip 文档。

🔧 技术细节

训练过程

SigLIP 2 在 SigLIP 的基础上增加了一些巧妙的训练目标：

解码器损失
全局 - 局部和掩码预测损失
宽高比和分辨率适应性

训练数据

SigLIP 2 在 WebLI 数据集 (Chen et al., 2023) 上进行了预训练。

计算资源

该模型在多达 2048 个 TPU - v5e 芯片上进行训练。

📊 评估结果

以下是 SigLIP 2 的评估结果（取自论文）： Evaluation Table

BibTeX 引用

@misc{tschannen2025siglip2multilingualvisionlanguage,
      title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features}, 
      author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
      year={2025},
      eprint={2502.14786},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.14786}, 
}