许可协议:apache-2.0
标签:
- 视觉
小部件示例:
- 图片链接:https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg
候选标签:
- 天空中的蜜蜂
- 花朵上的蜜蜂
示例标题:蜜蜂
库名称:transformers
管道标签:零样本图像分类
SigLIP 2 So400m 模型
SigLIP 2 在 SigLIP 的预训练目标基础上,整合了先前独立开发的技术,形成了一套统一的训练方案,以提升语义理解、定位和密集特征提取能力。
用途
您可以直接使用该原始模型进行零样本图像分类、图文检索等任务,或将其作为视觉语言模型(及其他视觉任务)的视觉编码器。
以下是使用该模型进行零样本图像分类的示例代码:
from transformers import pipeline
ckpt = "google/siglip2-so400m-patch14-384"
image_classifier = pipeline(model=ckpt, task="zero-shot-image-classification")
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
candidate_labels = ["2只猫", "一架飞机", "一个遥控器"]
outputs = image_classifier(image, candidate_labels)
print(outputs)
您还可以通过以下方式使用视觉塔编码图像:
import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image
ckpt = "google/siglip2-so400m-patch14-384"
model = AutoModel.from_pretrained(ckpt, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(ckpt)
image = load_image("https://huggingface.co/datasets/merve/coco/resolve/main/val2017/000000000285.jpg")
inputs = processor(images=[image], return_tensors="pt").to(model.device)
with torch.no_grad():
image_embeddings = model.get_image_features(**inputs)
print(image_embeddings.shape)
更多代码示例请参阅 siglip 文档。
训练方法
SigLIP 2 在 SigLIP 基础上新增了以下训练目标:
- 解码器损失
- 全局-局部及掩码预测损失
- 宽高比与分辨率自适应
训练数据
SigLIP 2 使用 WebLI 数据集 (Chen 等, 2023) 进行预训练。
计算资源
模型在最多 2048 块 TPU-v5e 芯片上完成训练。
评估结果
模型评估结果如下(数据来自论文):

BibTeX 引用信息
@misc{tschannen2025siglip2multilingualvisionlanguage,
title={SigLIP 2:具备增强语义理解、定位与密集特征的多语言视觉语言编码器},
author={Michael Tschannen 等},
year={2025},
eprint={2502.14786},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2502.14786},
}