许可协议:apache-2.0
标签:
- 视觉
小部件示例:
- 图片链接:https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg
候选标签:天空中的蜜蜂,花朵上的蜜蜂
示例标题:蜜蜂
库名称:transformers
管道标签:零样本图像分类
SigLIP 2 基础版
SigLIP 2 在 SigLIP 的预训练目标基础上,整合了先前独立开发的技术,形成了一套统一的训练方案,以提升语义理解、定位和密集特征提取能力。
预期用途
您可以将原始模型用于零样本图像分类、图文检索等任务,或作为视觉语言模型(及其他视觉任务)的视觉编码器。
以下是使用该模型进行零样本图像分类的示例代码:
from transformers import pipeline
ckpt = "google/siglip2-base-patch16-naflex"
image_classifier = pipeline(model=ckpt, task="zero-shot-image-classification")
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
candidate_labels = ["2只猫", "一架飞机", "一个遥控器"]
outputs = image_classifier(image, candidate_labels)
print(outputs)
您还可以通过以下方式使用视觉塔编码图像:
import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image
ckpt = "google/siglip2-base-patch16-naflex"
model = AutoModel.from_pretrained(ckpt, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(ckpt)
image = load_image("https://huggingface.co/datasets/merve/coco/resolve/main/val2017/000000000285.jpg")
inputs = processor(images=[image], return_tensors="pt").to(model.device)
with torch.no_grad():
image_embeddings = model.get_image_features(**inputs)
print(image_embeddings.shape)
更多代码示例,请参阅 siglip2 文档。
训练流程
SigLIP 2 在 SigLIP 的基础上增加了以下巧妙的训练目标:
- 解码器损失
- 全局-局部和掩码预测损失
- 宽高比和分辨率适应性
训练数据
SigLIP 2 在 WebLI 数据集 (Chen et al., 2023) 上进行了预训练。
计算资源
该模型在最多 2048 个 TPU-v5e 芯片上进行了训练。
评估结果
SigLIP 2 的评估结果如下(摘自论文)。

BibTeX 条目及引用信息
@misc{tschannen2025siglip2multilingualvisionlanguage,
title={SigLIP 2: 具备增强语义理解、定位和密集特征的多语言视觉-语言编码器},
author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
year={2025},
eprint={2502.14786},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2502.14786},
}