SigLIP 2开源视觉语言模型 - 提升语义理解、定位与特征提取能力

首页

Siglip2 Base Patch16 384

由 google 开发

SigLIP 2 是基于 SigLIP 的视觉语言模型，通过统一训练方案提升了语义理解、定位和密集特征提取能力。

图像生成文本

Transformers

开源协议:Apache-2.0 #零样本图像分类 #多模态语义理解 #密集特征提取

下载量 4,832

发布时间 : 2/17/2025

模型简介

该模型可直接用于零样本图像分类、图文检索等任务，或作为视觉语言模型的视觉编码器。

模型特点

统一训练方案

整合了多种技术形成统一训练方案，提升语义理解、定位和密集特征提取能力。

多任务支持

支持零样本图像分类、图文检索等多种任务，也可作为视觉编码器使用。

高效训练

采用 WebLI 数据集进行预训练，使用多达 2048 块 TPU-v5e 芯片完成训练。

模型能力

零样本图像分类

图文检索

图像特征提取

使用案例

图像理解

零样本图像分类

无需特定训练即可对图像进行分类

可根据提供的候选标签返回最可能的分类结果

视觉编码器

作为其他视觉任务的视觉特征提取器

可提取高质量的图像嵌入特征

🚀 SigLIP 2 Base

SigLIP 2 模型基于 SigLIP 进行了扩展，它将预先独立开发的技术融入到统一的预训练目标中，从而提升了语义理解、定位能力和特征提取的效果。

🚀 快速开始

SigLIP 2 模型可用于零样本图像分类和图像 - 文本检索等任务，也能作为视觉语言模型（VLM）及其他视觉任务的视觉编码器。

✨ 主要特性

扩展了 SigLIP 的预训练目标，融入了独立开发的技术，形成统一方案。
提升了语义理解、定位能力和特征提取效果。

📦 安装指南

文档未提及具体安装步骤，可参考 transformers 库官方文档进行安装。

💻 使用示例

基础用法

以下是使用该模型进行零样本图像分类的示例代码：

from transformers import pipeline

# load pipeline
ckpt = "google/siglip2-base-patch16-384"
image_classifier = pipeline(model=ckpt, task="zero-shot-image-classification")

# load image and candidate labels
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
candidate_labels = ["2 cats", "a plane", "a remote"]

# run inference
outputs = image_classifier(image, candidate_labels)
print(outputs)

高级用法

使用 Vision Tower 对图像进行编码的示例代码：

import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image

# load the model and processor
ckpt = "google/siglip2-base-patch16-384"
model = AutoModel.from_pretrained(ckpt, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(ckpt)

# load the image
image = load_image("https://huggingface.co/datasets/merve/coco/resolve/main/val2017/000000000285.jpg")
inputs = processor(images=[image], return_tensors="pt").to(model.device)

# run infernece
with torch.no_grad():
    image_embeddings = model.get_image_features(**inputs)    

print(image_embeddings.shape)

更多代码示例可参考 siglip 文档。

📚 详细文档

训练过程

SigLIP 2 在 SigLIP 的基础上增加了一些训练目标：

解码器损失
全局 - 局部和掩码预测损失
宽高比和分辨率适应性

训练数据

SigLIP 2 在 WebLI 数据集 (Chen et al., 2023) 上进行预训练。

计算资源

该模型在多达 2048 个 TPU - v5e 芯片上进行训练。

评估结果

SigLIP 2 的评估结果如下（取自论文）：评估表格

BibTeX 引用

@misc{tschannen2025siglip2multilingualvisionlanguage,
      title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features}, 
      author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
      year={2025},
      eprint={2502.14786},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.14786}, 
}