许可协议: apache-2.0
标签:
- 视觉
小部件示例:
- 图片链接: >
https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg
候选标签: 天空中的蜜蜂, 花朵上的蜜蜂
示例标题: 蜜蜂
库名称: transformers
管道标签: 零样本图像分类
SigLIP 2 So400m
SigLIP 2 在 SigLIP 的预训练目标基础上,整合了先前独立开发的技术,形成了一套统一的训练方案,以提升语义理解、定位和密集特征提取能力。
用途
您可以将该原始模型用于零样本图像分类、图文检索等任务,或作为视觉语言模型(及其他视觉任务)的视觉编码器。
以下是使用该模型进行零样本图像分类的示例:
from transformers import pipeline
ckpt = "google/siglip2-so400m-patch16-256"
image_classifier = pipeline(model=ckpt, task="zero-shot-image-classification")
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
candidate_labels = ["2只猫", "飞机", "遥控器"]
outputs = image_classifier(image, candidate_labels)
print(outputs)
您还可以通过以下方式使用视觉塔编码图像:
import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image
ckpt = "google/siglip2-so400m-patch16-256"
model = AutoModel.from_pretrained(ckpt, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(ckpt)
image = load_image("https://huggingface.co/datasets/merve/coco/resolve/main/val2017/000000000285.jpg")
inputs = processor(images=[image], return_tensors="pt").to(model.device)
with torch.no_grad():
image_embeddings = model.get_image_features(**inputs)
print(image_embeddings.shape)
更多代码示例,请参考 siglip文档。
训练过程
SigLIP 2 在 SigLIP 的基础上增加了以下巧妙的训练目标:
- 解码器损失
- 全局-局部和掩码预测损失
- 宽高比和分辨率适应性
训练数据
SigLIP 2 在 WebLI 数据集 (Chen 等, 2023) 上进行了预训练。
计算资源
该模型在最多 2048 个 TPU-v5e 芯片上进行了训练。
评估结果
SigLIP 2 的评估结果如下(摘自论文)。

BibTeX 条目及引用信息
@misc{tschannen2025siglip2multilingualvisionlanguage,
title={SigLIP 2: 具备改进语义理解、定位和密集特征的多语言视觉语言编码器},
author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
year={2025},
eprint={2502.14786},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2502.14786},
}