siglip2-base-patch16-224开源模型 - 多语言视觉语言编码，提升语义理解等能力

首页

Siglip2 Base Patch16 224

由 google 开发

SigLIP 2是基于SigLIP改进的多语言视觉语言编码器，增强了语义理解、定位和密集特征提取能力。

图像生成文本

Transformers

开源协议:Apache-2.0 #零样本图像分类 #图文检索 #多模态编码器

下载量 44.75k

发布时间 : 2/17/2025

模型简介

SigLIP 2是一个视觉语言模型，可用于零样本图像分类和图文检索等任务，也可作为其他视觉任务的视觉编码器。

模型特点

改进的训练目标

整合了解码器损失、全局-局部和掩码预测损失、宽高比和分辨率适应性等训练目标

多任务能力

支持零样本图像分类和图文检索等多种视觉语言任务

大规模预训练

在WebLI数据集上进行预训练，使用多达2048个TPU-v5e芯片

模型能力

零样本图像分类

图文检索

视觉特征提取

使用案例

图像分析

零样本图像分类

无需特定训练即可对图像进行分类

可根据提供的候选标签准确分类图像

视觉特征提取

提取图像的视觉特征表示

可用于下游视觉任务

🚀 SigLIP 2 Base

SigLIP 2 模型在语义理解、定位和密集特征方面有显著提升。它将 SigLIP 的预训练目标与先前独立开发的技术相结合，形成统一方案，从而增强了模型性能。

🚀 快速开始

你可以使用该原始模型进行零样本图像分类和图像 - 文本检索等任务，也可将其作为视觉语言模型（VLM）的视觉编码器（以及其他视觉任务）。

✨ 主要特性

SigLIP 2 扩展了 SigLIP 的预训练目标，结合了先前独立开发的技术，形成统一方案，以提高语义理解、定位和密集特征。

💻 使用示例

基础用法

以下是如何使用此模型执行零样本图像分类的示例：

from transformers import pipeline

# load pipeline
ckpt = "google/siglip2-base-patch16-224"
image_classifier = pipeline(model=ckpt, task="zero-shot-image-classification")

# load image and candidate labels
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
candidate_labels = ["2 cats", "a plane", "a remote"]

# run inference
outputs = image_classifier(image, candidate_labels)
print(outputs)

高级用法

你可以像这样使用视觉塔对图像进行编码：

import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image

# load the model and processor
ckpt = "google/siglip2-base-patch16-224"
model = AutoModel.from_pretrained(ckpt, device_map="auto").eval()
processor = AutoProcessor.from_pretrained(ckpt)

# load the image
image = load_image("https://huggingface.co/datasets/merve/coco/resolve/main/val2017/000000000285.jpg")
inputs = processor(images=[image], return_tensors="pt").to(model.device)

# run infernece
with torch.no_grad():
    image_embeddings = model.get_image_features(**inputs)    

print(image_embeddings.shape)

更多代码示例，请参考 siglip 文档。

🔧 技术细节

训练过程

SigLIP 2 在 SigLIP 的基础上增加了一些巧妙的训练目标：

解码器损失
全局 - 局部和掩码预测损失
宽高比和分辨率适应性

训练数据

SigLIP 2 在 WebLI 数据集 (Chen et al., 2023) 上进行预训练。

计算资源

该模型在多达 2048 个 TPU - v5e 芯片上进行训练。

📚 详细文档

评估结果

以下是 SigLIP 2 的评估结果（取自论文）。评估表格

BibTeX 引用和引用信息

@misc{tschannen2025siglip2multilingualvisionlanguage,
      title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features}, 
      author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
      year={2025},
      eprint={2502.14786},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.14786}, 
}