SigLIP 2开源视觉 - 语言编码器：增强语义理解与特征提取能力

首页

Siglip2 Base Patch16 Naflex

由 google 开发

SigLIP 2 是一个多语言视觉-语言编码器，整合了SigLIP的预训练目标并增加了新的训练方案，提升了语义理解、定位和密集特征提取能力。

文本生成图像

Transformers

开源协议:Apache-2.0 #零样本图像分类 #多模态语义理解 #密集特征提取

下载量 10.68k

发布时间 : 2/18/2025

模型简介

SigLIP 2 可用于零样本图像分类、图文检索等任务，或作为视觉语言模型的视觉编码器。

模型特点

增强的语义理解

整合了SigLIP的预训练目标并增加了新的训练方案，提升了语义理解能力。

定位和密集特征提取

通过改进的训练目标，增强了定位和密集特征提取能力。

多任务支持

支持零样本图像分类、图文检索等多种视觉-语言任务。

模型能力

零样本图像分类

图文检索

视觉编码

使用案例

图像分类

零样本图像分类

无需微调即可对图像进行分类，支持自定义标签。

图文检索

图像搜索

根据文本描述检索相关图像。

🚀 SigLIP 2 Base

SigLIP 2 模型扩展了 SigLIP 的预训练目标，将先前独立开发的技术整合为统一方案，以提升语义理解、定位能力和密集特征提取能力。它可用于零样本图像分类和图像 - 文本检索等任务，也能作为视觉语言模型（VLM）的视觉编码器。

🚀 快速开始

零样本图像分类

from transformers import pipeline

# load pipeline
ckpt = "google/siglip2-base-patch16-naflex"
image_classifier = pipeline(model=ckpt, task="zero-shot-image-classification")

# load image and candidate labels
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
candidate_labels = ["2 cats", "a plane", "a remote"]

# run inference
outputs = image_classifier(image, candidate_labels)
print(outputs)

图像编码

import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image

# load the model and processor
ckpt = "google/siglip2-base-patch16-naflex"
model = AutoModel.from_pretrained(ckpt, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(ckpt)

# load the image
image = load_image("https://huggingface.co/datasets/merve/coco/resolve/main/val2017/000000000285.jpg")
inputs = processor(images=[image], return_tensors="pt").to(model.device)

# run infernece
with torch.no_grad():
    image_embeddings = model.get_image_features(**inputs)    

print(image_embeddings.shape)

更多代码示例请参考 siglip2 文档。

✨ 主要特性

扩展预训练目标：SigLIP 2 扩展了 SigLIP 的预训练目标，将先前独立开发的技术整合为统一方案，以提升语义理解、定位能力和密集特征提取能力。
多任务适用性：可用于零样本图像分类和图像 - 文本检索等任务，也能作为视觉语言模型（VLM）的视觉编码器。

🔧 技术细节

训练目标

SigLIP 2 在 SigLIP 的基础上增加了一些训练目标：

解码器损失
全局 - 局部和掩码预测损失
宽高比和分辨率适应性

训练数据

SigLIP 2 在 WebLI 数据集 (Chen et al., 2023) 上进行预训练。

计算资源

该模型在多达 2048 个 TPU - v5e 芯片上进行训练。

📄 许可证

本项目采用 Apache 2.0 许可证。

📚 详细文档

预期用途

可以使用原始模型进行零样本图像分类和图像 - 文本检索等任务，或作为视觉语言模型（VLM）的视觉编码器（以及其他视觉任务）。

评估结果

SigLIP 2 的评估结果如下（取自论文）：评估表格

BibTeX 引用

@misc{tschannen2025siglip2multilingualvisionlanguage,
      title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features}, 
      author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
      year={2025},
      eprint={2502.14786},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.14786}, 
}