SigLIP 2开源视觉语言模型 - 免费部署增强语义理解与特征提取

首页

Siglip2 Base Patch16 512

由 google 开发

SigLIP 2 是一个视觉语言模型，整合了多项技术以提升语义理解、定位和密集特征提取能力。

文本生成图像

Transformers

开源协议:Apache-2.0 #零样本图像分类 #图文检索 #多模态编码器

下载量 28.01k

发布时间 : 2/17/2025

模型简介

SigLIP 2 基于 SigLIP 的预训练目标，通过统一的训练方案提升了视觉语言任务的性能，适用于零样本图像分类、图文检索等任务。

模型特点

统一的训练方案

整合了多项独立开发的技术，形成了一套统一的训练方案，提升了语义理解、定位和密集特征提取能力。

多任务支持

支持零样本图像分类、图文检索等任务，并可作为视觉语言模型的视觉编码器。

创新训练目标

增加了解码器损失、全局-局部和掩码预测损失、宽高比和分辨率适应性等创新训练目标。

模型能力

零样本图像分类

图文检索

视觉编码

使用案例

图像分类

零样本图像分类

使用候选标签对图像进行分类，无需预先训练特定类别的模型。

图文检索

图像与文本匹配

将图像与文本进行匹配，用于检索相关图像或文本。

🚀 SigLIP 2 Base

SigLIP 2 模型基于 SigLIP 进行扩展，它将预先独立开发的技术融入到统一的预训练目标中，从而提升了语义理解、定位能力和特征提取的效果。

🚀 快速开始

你可以使用该原始模型进行零样本图像分类和图像 - 文本检索等任务，也可以将其作为视觉语言模型（VLM）的视觉编码器用于其他视觉任务。

以下是使用此模型进行零样本图像分类的示例：

from transformers import pipeline

# load pipeline
ckpt = "google/siglip2-base-patch16-512"
image_classifier = pipeline(model=ckpt, task="zero-shot-image-classification")

# load image and candidate labels
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
candidate_labels = ["2 cats", "a plane", "a remote"]

# run inference
outputs = image_classifier(image, candidate_labels)
print(outputs)

你还可以使用视觉塔对图像进行编码，示例如下：

import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image

# load the model and processor
ckpt = "google/siglip2-base-patch16-512"
model = AutoModel.from_pretrained(ckpt, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(ckpt)

# load the image
image = load_image("https://huggingface.co/datasets/merve/coco/resolve/main/val2017/000000000285.jpg")
inputs = processor(images=[image], return_tensors="pt").to(model.device)

# run infernece
with torch.no_grad():
    image_embeddings = model.get_image_features(**inputs)    

print(image_embeddings.shape)

更多代码示例请参考 siglip 文档。

✨ 主要特性

SigLIP 2 在 SigLIP 的基础上增加了一些巧妙的训练目标：

解码器损失
全局 - 局部和掩码预测损失
宽高比和分辨率适应性

🔧 技术细节

训练数据

SigLIP 2 在 WebLI 数据集 (Chen et al., 2023) 上进行预训练。

计算资源

该模型在多达 2048 个 TPU - v5e 芯片上进行训练。

📚 详细文档

评估结果

以下是 SigLIP 2 的评估结果（取自论文）：评估表格

BibTeX 引用和引用信息

@misc{tschannen2025siglip2multilingualvisionlanguage,
      title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features}, 
      author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
      year={2025},
      eprint={2502.14786},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.14786}, 
}