许可协议:apache-2.0
标签:
- 视觉
小部件:
- 图片示例:
src: >-
https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg
候选标签:天空中的蜜蜂,花朵上的蜜蜂
示例标题:蜜蜂
库名称:transformers
管道标签:零样本图像分类
SigLIP 2 So400m
SigLIP 2 在 SigLIP 的预训练目标基础上,整合了先前独立开发的技术,形成了一套统一的方案,以提升语义理解、定位和密集特征提取能力。
预期用途
您可以将原始模型用于零样本图像分类、图文检索等任务,或作为视觉语言模型(及其他视觉任务)的视觉编码器。
以下是使用该模型进行零样本图像分类的示例:
from transformers import pipeline
ckpt = "google/siglip2-so400m-patch14-224"
image_classifier = pipeline(model=ckpt, task="zero-shot-image-classification")
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
candidate_labels = ["2只猫", "一架飞机", "一个遥控器"]
outputs = image_classifier(image, candidate_labels)
print(outputs)
您可以通过视觉编码塔(Vision Tower)编码图片,如下所示:
import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image
ckpt = "google/siglip2-so400m-patch14-224"
model = AutoModel.from_pretrained(ckpt, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(ckpt)
image = load_image("https://huggingface.co/datasets/merve/coco/resolve/main/val2017/000000000285.jpg")
inputs = processor(images=[image], return_tensors="pt").to(model.device)
with torch.no_grad():
image_embeddings = model.get_image_features(**inputs)
print(image_embeddings.shape)
更多代码示例,请参考 siglip文档。
训练流程
SigLIP 2 在 SigLIP 的基础上增加了以下巧妙的训练目标:
- 解码器损失
- 全局-局部和掩码预测损失
- 宽高比和分辨率适应性
训练数据
SigLIP 2 在 WebLI 数据集 (Chen et al., 2023) 上进行了预训练。
计算资源
该模型在多达 2048 个 TPU-v5e 芯片上进行了训练。
评估结果
SigLIP 2 的评估结果如下(摘自论文)。

BibTeX 条目及引用信息
@misc{tschannen2025siglip2multilingualvisionlanguage,
title={SigLIP 2: 具备改进语义理解、定位和密集特征的多语言视觉语言编码器},
author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
year={2025},
eprint={2502.14786},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2502.14786},
}