许可证:apache-2.0
标签:
- 视觉
小部件:
- 示例图片:
src: >-
https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg
候选标签:
- 天空中的蜜蜂
- 花朵上的蜜蜂
示例标题:蜜蜂
库名称:transformers
任务标签:零样本图像分类
SigLIP 2 基础版
SigLIP 2 在 SigLIP 的预训练目标基础上,整合了先前独立开发的技术,形成了一套统一的训练方案,从而提升了语义理解、定位和密集特征提取能力。
用途
该模型可直接用于零样本图像分类、图文检索等任务,或作为视觉语言模型(及其他视觉任务)的视觉编码器。
以下示例展示如何使用该模型进行零样本图像分类:
from transformers import pipeline
ckpt = "google/siglip2-base-patch16-384"
image_classifier = pipeline(model=ckpt, task="zero-shot-image-classification")
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
candidate_labels = ["两只猫", "飞机", "遥控器"]
outputs = image_classifier(image, candidate_labels)
print(outputs)
若需通过视觉编码器提取图像特征,可参考以下代码:
import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image
ckpt = "google/siglip2-base-patch16-384"
model = AutoModel.from_pretrained(ckpt, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(ckpt)
image = load_image("https://huggingface.co/datasets/merve/coco/resolve/main/val2017/000000000285.jpg")
inputs = processor(images=[image], return_tensors="pt").to(model.device)
with torch.no_grad():
image_embeddings = model.get_image_features(**inputs)
print(image_embeddings.shape)
更多代码示例请参阅 SigLIP文档。
训练方法
SigLIP 2 在 SigLIP 基础上新增了以下训练目标:
- 解码器损失
- 全局-局部与掩码预测损失
- 宽高比与分辨率自适应机制
训练数据
模型基于 WebLI 数据集 (Chen et al., 2023) 进行预训练。
算力
训练使用多达 2048 块 TPU-v5e 芯片完成。
评估结果
模型性能指标如下(数据源自论文):

BibTeX 引用信息
@misc{tschannen2025siglip2multilingualvisionlanguage,
title={SigLIP 2:具备增强语义理解、定位与密集特征的多语言视觉-语言编码器},
author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
year={2025},
eprint={2502.14786},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2502.14786},
}